একটি এআই ডেটাসেট কী?

আপনি যদি AI সিস্টেম তৈরি, কিনছেন, অথবা এমনকি মূল্যায়ন করছেন, তাহলে আপনার সামনে একটি বিভ্রান্তিকর সহজ প্রশ্নের সম্মুখীন হবে এবং তা হল AI ডেটাসেট কী এবং এটি কেন এত গুরুত্বপূর্ণ? সংক্ষিপ্ত সংস্করণ: এটি আপনার মডেলের জ্বালানি, রান্নার বই এবং কখনও কখনও কম্পাস।

এর পরে আপনি যে প্রবন্ধগুলি পড়তে পছন্দ করতে পারেন:

🔗 এআই কীভাবে প্রবণতার পূর্বাভাস দেয়
ভবিষ্যতের ঘটনা এবং আচরণের পূর্বাভাস দেওয়ার জন্য AI কীভাবে নিদর্শন বিশ্লেষণ করে তা অন্বেষণ করে।

🔗 এআই কর্মক্ষমতা কীভাবে পরিমাপ করা যায়
নির্ভুলতা, দক্ষতা এবং মডেল নির্ভরযোগ্যতা মূল্যায়নের জন্য মেট্রিক্স এবং পদ্ধতি।

🔗 এআই-এর সাথে কীভাবে কথা বলবেন
AI-উত্পাদিত প্রতিক্রিয়া উন্নত করার জন্য আরও ভাল মিথস্ক্রিয়া তৈরির নির্দেশিকা।

🔗 এআই কী প্রম্পট করছে?
প্রম্পট কীভাবে AI আউটপুট এবং সামগ্রিক যোগাযোগের মান গঠন করে তার সারসংক্ষেপ।

এআই ডেটাসেট কী? একটি দ্রুত সংজ্ঞা 🧩

এআই ডেটাসেট কী? এটি এমন কিছু উদাহরণের সংগ্রহ, যা থেকে আপনার মডেল শেখে বা যার উপর ভিত্তি করে এর মূল্যায়ন করা হয়। প্রতিটি উদাহরণে থাকে:

ইনপুট - মডেলটি যে বৈশিষ্ট্যগুলি দেখে, যেমন টেক্সট স্নিপেট, ছবি, অডিও, ট্যাবুলার সারি, সেন্সর রিডিং, গ্রাফ।
লক্ষ্য - মডেলের ভবিষ্যদ্বাণী করা উচিত এমন লেবেল বা ফলাফল, যেমন বিভাগ, সংখ্যা, পাঠ্যের বিস্তৃতি, ক্রিয়া, অথবা কখনও কখনও কিছুই না।
মেটাডেটা - উৎস, সংগ্রহ পদ্ধতি, টাইমস্ট্যাম্প, লাইসেন্স, সম্মতি তথ্য এবং মানের উপর নোটের মতো প্রসঙ্গ।

আপনার মডেলের জন্য এটিকে সাবধানে প্যাক করা লাঞ্চবক্সের মতো ভাবুন: উপাদান, লেবেল, পুষ্টির তথ্য, এবং হ্যাঁ, স্টিকি নোট যা বলে "এই অংশটি খাবেন না।" 🍱

তত্ত্বাবধানে থাকা কাজের জন্য, আপনি স্পষ্ট লেবেলের সাথে যুক্ত ইনপুট দেখতে পাবেন। তত্ত্বাবধানে না থাকা কাজের জন্য, আপনি লেবেল ছাড়াই ইনপুট দেখতে পাবেন। রিইনফোর্সমেন্ট লার্নিংয়ের জন্য, ডেটা প্রায়শই অবস্থা, ক্রিয়া, পুরষ্কার সহ পর্ব বা ট্র্যাজেক্টোরির মতো দেখায়। মাল্টিমোডাল কাজের জন্য, উদাহরণগুলি একটি একক রেকর্ডে পাঠ্য + চিত্র + অডিও একত্রিত করতে পারে। অভিনব শোনাচ্ছে; বেশিরভাগই প্লাম্বিং।

সহায়ক প্রাথমিক নির্দেশিকা এবং অনুশীলন: ডেটাসেটের জন্য ডেটাশিট ধারণাটি দলগুলিকে ডেটাসেটের ভিতরে কী আছে এবং কীভাবে এটি ব্যবহার করা উচিত তা ব্যাখ্যা করতে সহায়তা করে [1], এবং মডেল কার্ডগুলি মডেলের ডেটা ডকুমেন্টেশনের পরিপূরক [2]।

একটি ভালো এআই ডেটাসেট কী তৈরি করে ✅

সত্যি কথা বলতে, অনেক মডেল সফল হয় কারণ ডেটাসেটটি খারাপ ছিল না। একটি "ভালো" ডেটাসেট হল:

শুধুমাত্র ল্যাবের অবস্থার নয়, বাস্তব ব্যবহারের ক্ষেত্রের প্রতিনিধিত্ব করে ।
স্পষ্ট নির্দেশিকা এবং পর্যায়ক্রমিক বিচার সহ সঠিকভাবে লেবেলযুক্ত । চুক্তির মেট্রিক্স (যেমন, কাপ্পা-স্টাইলের পরিমাপ) সুস্থতা-নির্ণয়-নির্ণয়কে সহায়তা করে।
সম্পূর্ণ এবং ভারসাম্যপূর্ণ । ভারসাম্যহীনতা স্বাভাবিক; অবহেলা নয়।
উৎপত্তিস্থল পরিষ্কার। বিরক্তিকর কাগজপত্র উত্তেজনাপূর্ণ মামলাগুলিকে বাধা দেয়।
ভালোভাবে নথিভুক্ত করা হয়েছে যা উদ্দেশ্যপ্রণোদিত ব্যবহার, সীমা এবং জ্ঞাত ব্যর্থতার মোডগুলি বানান করে [1]
পরিচালিত । আপনি যদি ডেটাসেটটি পুনরুৎপাদন করতে না পারেন, তবে আপনি মডেলটিও পুনরুৎপাদন করতে পারবেন না। NIST-এর AI ঝুঁকি ব্যবস্থাপনা কাঠামোর ডেটার গুণমান এবং ডকুমেন্টেশনকে প্রথম শ্রেণীর বিষয় হিসেবে বিবেচনা করে [3]।

আপনার কাজের উপর নির্ভর করে AI ডেটাসেটের প্রকারভেদ 🧰

কাজের মাধ্যমে

শ্রেণীবিভাগ - যেমন, স্প্যাম বনাম স্প্যাম নয়, ছবির বিভাগ।
রিগ্রেশন - মূল্য বা তাপমাত্রার মতো একটি অবিচ্ছিন্ন মানের পূর্বাভাস দিন।
সিকোয়েন্স লেবেলিং - নামযুক্ত সত্তা, বক্তৃতার অংশ।
প্রজন্ম - সারসংক্ষেপ, অনুবাদ, ছবির ক্যাপশন।
সুপারিশ - ব্যবহারকারী, আইটেম, মিথস্ক্রিয়া, প্রসঙ্গ।
অসঙ্গতি সনাক্তকরণ - সময় সিরিজ বা লগে বিরল ঘটনা।
শক্তিবৃদ্ধি শিক্ষণ - অবস্থা, কর্ম, পুরস্কার, পরবর্তী-অবস্থার ক্রম।
পুনরুদ্ধার - নথি, প্রশ্ন, প্রাসঙ্গিকতার রায়।

পদ্ধতি অনুসারে

ট্যাবুলার - বয়স, আয়, মন্থনের মতো কলাম। অবমূল্যায়ন, নিষ্ঠুরভাবে কার্যকর।
টেক্সট - ডকুমেন্ট, চ্যাট, কোড, ফোরাম পোস্ট, পণ্যের বিবরণ।
ছবি - ছবি, মেডিকেল স্ক্যান, স্যাটেলাইট টাইলস; মাস্ক, বাক্স, কীপয়েন্ট সহ বা ছাড়া।
অডিও - তরঙ্গরূপ, প্রতিলিপি, স্পিকার ট্যাগ।
ভিডিও - ফ্রেম, টেম্পোরাল টীকা, অ্যাকশন লেবেল।
গ্রাফ - নোড, প্রান্ত, বৈশিষ্ট্য।
সময় সিরিজ - সেন্সর, অর্থায়ন, টেলিমেট্রি।

তত্ত্বাবধানে

লেবেলযুক্ত (সোনালী, রূপা, স্বয়ংক্রিয় লেবেলযুক্ত), দুর্বল লেবেলযুক্ত, লেবেলবিহীন, সিন্থেটিক। দোকান থেকে কেনা কেক মিক্সটি ভালো হতে পারে - যদি আপনি বাক্সটি পড়েন।

বাক্সের ভেতরে: গঠন, বিভাজন এবং মেটাডেটা 📦

একটি শক্তিশালী ডেটাসেটে সাধারণত অন্তর্ভুক্ত থাকে:

স্কিমা - টাইপ করা ক্ষেত্র, ইউনিট, অনুমোদিত মান, নাল হ্যান্ডলিং।
বিভক্ত - প্রশিক্ষণ, যাচাইকরণ, পরীক্ষা। পরীক্ষার তথ্য সিল করে রাখুন - এটিকে চকোলেটের শেষ টুকরোর মতো ব্যবহার করুন।
নমুনা পরিকল্পনা - আপনি জনসংখ্যা থেকে কীভাবে উদাহরণ আঁকলেন; একটি অঞ্চল বা ডিভাইস থেকে সুবিধাজনক নমুনা এড়িয়ে চলুন।
বর্ধন - উল্টানো, ফসল কাটা, শব্দ, প্যারাফ্রেজ, মুখোশ। সৎ হলে ভালো; যখন তারা এমন নকশা তৈরি করে যা বনে কখনও ঘটে না তখন ক্ষতিকারক।
ভার্সনিং - ডেটাসেট v0.1, v0.2… যেখানে পরিবর্তন-লগগুলিতে বিভিন্ন ডেল্টা বর্ণনা করা হয়েছে।
লাইসেন্স এবং সম্মতি - ব্যবহারের অধিকার, পুনর্বণ্টন এবং মুছে ফেলার প্রবাহ। জাতীয় তথ্য-সুরক্ষা নিয়ন্ত্রকরা (যেমন, যুক্তরাজ্যের ICO) ব্যবহারিক, আইনসম্মত-প্রক্রিয়াকরণ চেকলিস্ট প্রদান করে [4]।

ডেটাসেটের জীবনচক্র, ধাপে ধাপে 🔁

সিদ্ধান্তটি সংজ্ঞায়িত করুন - মডেলটি কী সিদ্ধান্ত নেবে এবং তা ভুল হলে কী ঘটবে।
পরিধির বৈশিষ্ট্য এবং লেবেল - পরিমাপযোগ্য, পর্যবেক্ষণযোগ্য, সংগ্রহ করার জন্য নীতিগত।
উৎস তথ্য - যন্ত্র, লগ, জরিপ, পাবলিক কর্পোরা, অংশীদার।
সম্মতি এবং আইনি - গোপনীয়তা বিজ্ঞপ্তি, অপ্ট-আউট, ডেটা হ্রাস। "কেন" এবং "কীভাবে" এর জন্য নিয়ন্ত্রকের নির্দেশিকা দেখুন [4]।
সংগ্রহ এবং সংরক্ষণ - নিরাপদ সঞ্চয়স্থান, ভূমিকা-ভিত্তিক অ্যাক্সেস, PII পরিচালনা।
লেবেল - অভ্যন্তরীণ টীকাকার, ক্রাউডসোর্সিং, বিশেষজ্ঞ; সোনালী কাজ, অডিট এবং চুক্তির মেট্রিক্সের মাধ্যমে গুণমান পরিচালনা করুন।
পরিষ্কার এবং স্বাভাবিক করুন - অনুপস্থিতি দূর করুন, অনুপস্থিতি মোকাবেলা করুন, ইউনিটগুলিকে মানসম্মত করুন, এনকোডিং ঠিক করুন। বিরক্তিকর, বীরত্বপূর্ণ কাজ।
বিভক্ত করুন এবং যাচাই করুন - ফাঁস রোধ করুন; প্রাসঙ্গিক স্থানে স্তরবিন্যাস করুন; টেম্পোরাল ডেটার জন্য সময়-সচেতন বিভাজন পছন্দ করুন; এবং শক্তিশালী অনুমানের জন্য চিন্তাভাবনা করে ক্রস-বৈধকরণ ব্যবহার করুন [5]।
ডকুমেন্ট - ডেটাশিট বা ডেটা কার্ড; উদ্দেশ্যপ্রণোদিত ব্যবহার, সতর্কতা, সীমাবদ্ধতা [1]।
পর্যবেক্ষণ এবং আপডেট - বিচ্যুতি সনাক্তকরণ, রিফ্রেশ ক্যাডেন্স, সানসেট পরিকল্পনা। NIST এর AI RMF এই চলমান শাসন চক্রকে কাঠামোবদ্ধ করে [3]।

দ্রুত, বাস্তব-আকৃতির টিপস: দলগুলি প্রায়শই "ডেমো জিততে পারে" কিন্তু উৎপাদনে হোঁচট খায় কারণ তাদের ডেটাসেটটি নীরবে সরে যায় - নতুন পণ্য লাইন, একটি নামকরণ করা ক্ষেত্র, অথবা একটি পরিবর্তিত নীতি। একটি সাধারণ চেঞ্জলগ + পর্যায়ক্রমিক পুনঃটীকা পাস সেই যন্ত্রণার বেশিরভাগ অংশ এড়াতে পারে।

ডেটার মান এবং মূল্যায়ন - যতটা বিরক্তিকর শোনাচ্ছে ততটা নয় 🧪

গুণমান বহুমাত্রিক:

নির্ভুলতা - লেবেলগুলি কি ঠিক? চুক্তির মেট্রিক্স এবং পর্যায়ক্রমিক রায় ব্যবহার করুন।
সম্পূর্ণতা - আপনার সত্যিকার অর্থে প্রয়োজনীয় ক্ষেত্র এবং শ্রেণীগুলি অন্তর্ভুক্ত করুন।
ধারাবাহিকতা - অনুরূপ ইনপুটগুলির জন্য পরস্পরবিরোধী লেবেল এড়িয়ে চলুন।
সময়োপযোগীতা - পুরানো তথ্য অনুমানকে জীবাশ্ম করে।
ন্যায্যতা ও পক্ষপাত - জনসংখ্যা, ভাষা, ডিভাইস, পরিবেশ জুড়ে কভারেজ; বর্ণনামূলক অডিট দিয়ে শুরু করুন, তারপর স্ট্রেস টেস্ট। ডকুমেন্টেশন-প্রথম অনুশীলন (ডেটাশিট, মডেল কার্ড) এই পরীক্ষাগুলিকে দৃশ্যমান করে তোলে [1], এবং গভর্নেন্স ফ্রেমওয়ার্কগুলি ঝুঁকি নিয়ন্ত্রণ হিসাবে এগুলির উপর জোর দেয় [3]।

মডেল মূল্যায়নের জন্য, সঠিক বিভাজন এবং গড় মেট্রিক্স এবং সবচেয়ে খারাপ-গ্রুপ মেট্রিক্স উভয়ই ট্র্যাক করুন। একটি উজ্জ্বল গড় একটি গর্ত লুকিয়ে রাখতে পারে। ক্রস-বৈধকরণের মূল বিষয়গুলি স্ট্যান্ডার্ড ML টুলিং ডক্স [5]-এ ভালভাবে আচ্ছাদিত।

নীতিশাস্ত্র, গোপনীয়তা এবং লাইসেন্সিং - রেলিং 🛡️

নীতিগত তথ্য কোনও আবেগ নয়, এটি একটি প্রক্রিয়া:

সম্মতি এবং উদ্দেশ্য সীমাবদ্ধতা - ব্যবহার এবং আইনি ভিত্তি সম্পর্কে স্পষ্ট হন [4]।
PII পরিচালনা - যথাযথভাবে ছোট করুন, ছদ্মনাম দিন, অথবা বেনামী রাখুন; ঝুঁকি বেশি থাকলে গোপনীয়তা বৃদ্ধিকারী প্রযুক্তি বিবেচনা করুন।
স্বত্বাধিকার ও লাইসেন্স - শেয়ার-সমতুল্য এবং বাণিজ্যিক ব্যবহারের বিধিনিষেধ মেনে চলুন।
পক্ষপাত ও ক্ষতি - ভ্রান্ত সম্পর্কগুলির জন্য নিরীক্ষা করুন ("দিনের আলো মানেই নিরাপদ" এই ধারণাটি রাতে খুব বিভ্রান্তিকর হবে)।
রিড্রেস - অনুরোধের ভিত্তিতে ডেটা কীভাবে সরিয়ে ফেলতে হয় এবং কীভাবে প্রশিক্ষিত মডেলদের রোল ব্যাক করতে হয় তা জানুন (এটি আপনার ডেটাশিটে নথিভুক্ত করুন) [1]।

কত বড় মানে যথেষ্ট? সাইজিং এবং সিগন্যাল-টু-নয়েজ 📏

সাধারণ নিয়ম হলো: যদি উদাহরণগুলো প্রাসঙ্গিক হয় এবং প্রায়-অনুরূপ না হয়, তবে বেশি উদাহরণ সাধারণত সহায়ক হয়। কিন্তু কখনও কখনও অগোছালো নমুনার স্তূপের চেয়ে কম সংখ্যক, পরিচ্ছন্ন এবং ভালোভাবে লেবেল করা নমুনা থাকা বেশি ভালো ।

লক্ষ্য রাখুন:

লার্নিং কার্ভ - আপনি ডেটা-বাউন্ড নাকি মডেল-বাউন্ড, তা দেখতে পারফরম্যান্স বনাম স্যাম্পল সাইজের একটি প্লট তৈরি করুন।
লং-টেইল কভারেজ - বিরল কিন্তু গুরুত্বপূর্ণ ক্লাসগুলির জন্য প্রায়শই লক্ষ্যবস্তু সংগ্রহের প্রয়োজন হয়, কেবল আরও বেশি পরিমাণে নয়।
লেবেলের শব্দ - পরিমাপ করুন, তারপর কমিয়ে দিন; সামান্য সহনীয়, জোয়ারের ঢেউ সহ্যযোগ্য নয়।
বিতরণ স্থানান্তর - এক অঞ্চল বা চ্যানেল থেকে প্রশিক্ষণের তথ্য অন্য অঞ্চলে সাধারণীকরণ নাও হতে পারে; লক্ষ্য-সদৃশ পরীক্ষার তথ্যের উপর যাচাই করুন [5]।

সন্দেহ হলে, ছোট ছোট পাইলট চালান এবং প্রসারিত করুন। এটি মশলা যোগ করার মতো - যোগ করুন, স্বাদ নিন, সামঞ্জস্য করুন, পুনরাবৃত্তি করুন।

ডেটাসেটগুলি কোথায় খুঁজে পাবেন এবং পরিচালনা করবেন 🗂️

জনপ্রিয় রিসোর্স এবং টুলিং (এখনই URL গুলি মুখস্থ করার দরকার নেই):

আলিঙ্গন মুখ ডেটাসেট - প্রোগ্রাম্যাটিক লোডিং, প্রক্রিয়াকরণ, ভাগাভাগি।
গুগল ডেটাসেট অনুসন্ধান - ওয়েব জুড়ে মেটা-অনুসন্ধান।
UCI ML রিপোজিটরি - বেসলাইন এবং শিক্ষাদানের জন্য কিউরেটেড ক্লাসিক।
OpenML - টাস্ক + ডেটাসেট + উৎপত্তিস্থল সহ রান।
AWS ওপেন ডেটা / গুগল ক্লাউড পাবলিক ডেটাসেট - হোস্টেড, বৃহৎ আকারের কর্পোরা।

বিশেষ পরামর্শ: শুধু ডাউনলোড করবেন না। লাইসেন্স এবং ডেটাশিট পড়ুন, তারপর সংস্করণ নম্বর এবং উৎস [1] দিয়ে আপনার নিজের কপিটি নথিভুক্ত করুন।

লেবেলিং এবং টীকা - যেখানে সত্য নিয়ে আলোচনা হয় ✍️

টীকা হলো সেই জায়গা যেখানে আপনার তাত্ত্বিক লেবেল গাইড বাস্তবতার সাথে লড়াই করে:

টাস্ক ডিজাইন - উদাহরণ এবং পাল্টা উদাহরণ সহ স্পষ্ট নির্দেশাবলী লিখুন।
অ্যানোটেটর প্রশিক্ষণ - সোনালী উত্তর সহ বীজ, ক্যালিব্রেশন রাউন্ড চালান।
মান নিয়ন্ত্রণ - চুক্তির মেট্রিক্স, ঐক্যমত্য প্রক্রিয়া এবং পর্যায়ক্রমিক নিরীক্ষা ব্যবহার করুন।
টুলিং - এমন টুল বেছে নিন যা স্কিমা বৈধতা এবং পর্যালোচনা সারি জোরদার করে; এমনকি স্প্রেডশিটগুলিও নিয়ম এবং চেকের সাথে কাজ করতে পারে।
প্রতিক্রিয়া লুপ - নির্দেশিকাটি পরিমার্জন করার জন্য টীকাকারের নোট এবং মডেলের ভুলগুলি ক্যাপচার করুন।

যদি কমা নিয়ে দ্বিমত পোষণকারী তিন বন্ধুর সাথে অভিধান সম্পাদনা করার মতো মনে হয়... তাহলে এটাই স্বাভাবিক। 🙃

তথ্য ডকুমেন্টেশন - অন্তর্নিহিত জ্ঞানকে স্পষ্ট করে তোলা 📒

একটি হালকা ওজনের ডেটাশিট বা ডেটা কার্ডে নিম্নলিখিত বিষয়গুলি অন্তর্ভুক্ত থাকা উচিত:

কে, কীভাবে এবং কেন এটি সংগ্রহ করেছিল।
উদ্দেশ্যপ্রণোদিত ব্যবহার এবং সুযোগের বাইরে ব্যবহার।
জ্ঞাত ফাঁক, পক্ষপাত এবং ব্যর্থতার ধরণ।
লেবেলিং প্রোটোকল, QA ধাপ এবং চুক্তির পরিসংখ্যান।
লাইসেন্স, সম্মতি, সমস্যার জন্য যোগাযোগ, অপসারণ প্রক্রিয়া।

টেমপ্লেট এবং উদাহরণ: ডেটাসেট এবং মডেল কার্ডের ব্যাপকভাবে ব্যবহৃত শুরুর বিন্দু [1]।

তৈরি করার সময় লিখুন, পরে নয়। স্মৃতি একটি অস্থির সঞ্চয় মাধ্যম।

তুলনা সারণী - AI ডেটাসেট খুঁজে বের করার বা হোস্ট করার জায়গা 📊

হ্যাঁ, এটা একটু মতামতপ্রণোদিত। আর শব্দবিন্যাস ইচ্ছাকৃতভাবে কিছুটা অসম। ঠিক আছে।

টুল / রেপো	পাঠকবর্গ	দাম	কেন এটি বাস্তবে কাজ করে
আলিঙ্গন মুখ ডেটাসেট	গবেষক, প্রকৌশলী	ফ্রি-টায়ার	দ্রুত লোডিং, স্ট্রিমিং, কমিউনিটি স্ক্রিপ্ট; চমৎকার ডক্স; ভার্সন করা ডেটাসেট
গুগল ডেটাসেট অনুসন্ধান	সবাই	বিনামূল্যে	বিস্তৃত পৃষ্ঠতল; আবিষ্কারের জন্য দুর্দান্ত; কখনও কখনও অসঙ্গত মেটাডেটাও থাকে
UCI ML রিপোজিটরি	শিক্ষার্থী, শিক্ষক	বিনামূল্যে	কিউরেটেড ক্লাসিক; ছোট কিন্তু পরিপাটি; বেসলাইন এবং শিক্ষাদানের জন্য ভালো
ওপেনএমএল	রেপ্রো গবেষকরা	বিনামূল্যে	টাস্ক + ডেটাসেট + একসাথে রান; চমৎকার উৎপত্তি পথ
AWS ওপেন ডেটা রেজিস্ট্রি	ডেটা ইঞ্জিনিয়াররা	বেশিরভাগ বিনামূল্যে	পেটাবাইট-স্কেল হোস্টিং; ক্লাউড-নেটিভ অ্যাক্সেস; ঘড়ির বাইরে যাওয়ার খরচ
ক্যাগল ডেটাসেট	অনুশীলনকারীরা	বিনামূল্যে	সহজে ভাগাভাগি, স্ক্রিপ্ট, প্রতিযোগিতা; কমিউনিটি সিগন্যাল শব্দ ফিল্টার করতে সাহায্য করে
গুগল ক্লাউড পাবলিক ডেটাসেট	বিশ্লেষক, দল	ফ্রি + ক্লাউড	কম্পিউটের কাছাকাছি হোস্ট করা হয়েছে; BigQuery ইন্টিগ্রেশন; বিলিং এর ক্ষেত্রে সতর্ক থাকুন
একাডেমিক পোর্টাল, ল্যাবরেটরি	কুলুঙ্গি বিশেষজ্ঞরা	পরিবর্তিত হয়	অত্যন্ত বিশেষজ্ঞ; কখনও কখনও কম নথিভুক্ত - এখনও অনুসন্ধানের যোগ্য

(যদি কোনও সেল অপ্রস্তুত দেখায়, তাহলে সেটা ইচ্ছাকৃত।)

আপনার প্রথমটি তৈরি করা - একটি ব্যবহারিক স্টার্টার কিট 🛠️

আপনি "এআই ডেটাসেট কী" থেকে "আমি একটি তৈরি করেছি, এটি কাজ করে" -এ যেতে চান। এই ন্যূনতম পথটি চেষ্টা করে দেখুন:

সিদ্ধান্ত এবং মেট্রিক লিখুন - যেমন, সঠিক দলটি পূর্বাভাস দিয়ে আগত সহায়তার ভুল পথ হ্রাস করুন। মেট্রিক: ম্যাক্রো-F1।
৫টি ইতিবাচক এবং ৫টি নেতিবাচক উদাহরণ দিন - আসল টিকিটের নমুনা দিন; মনগড়া কিছু দেবেন না।
একটি লেবেল নির্দেশিকা খসড়া করুন - এক পৃষ্ঠা; স্পষ্ট অন্তর্ভুক্তি/বর্জনের নিয়ম।
একটি ছোট ও বাস্তব নমুনা সংগ্রহ করুন — বিভিন্ন বিভাগ জুড়ে কয়েকশ টিকিট; আপনার অপ্রয়োজনীয় ব্যক্তিগত শনাক্তকরণ তথ্য (PII) মুছে ফেলুন।
লিকেজ চেকের মাধ্যমে বিভক্ত করুন - একই গ্রাহকের সমস্ত বার্তা এক ভাগে রাখুন; ভ্যারিয়েন্স অনুমান করতে ক্রস-ভ্যালিডেশন ব্যবহার করুন [5]।
QA দিয়ে টীকা লিখুন - একটি উপসেটে দুজন টীকা লিখুন; মতবিরোধ সমাধান করুন; নির্দেশিকা আপডেট করুন।
একটি সহজ বেসলাইন প্রশিক্ষণ দিন - লজিস্টিকস (যেমন, লিনিয়ার মডেল বা কমপ্যাক্ট ট্রান্সফরমার)। মূল বিষয় হল ডেটা পরীক্ষা করা, পদক জেতা নয়।
ত্রুটি পর্যালোচনা করুন - এটি কোথায় ব্যর্থ হয় এবং কেন; কেবল মডেল নয়, ডেটাসেট আপডেট করুন।
ডকুমেন্ট - ক্ষুদ্র ডেটাশিট: উৎস, লেবেল গাইড লিঙ্ক, বিভাজন, জ্ঞাত সীমা, লাইসেন্স [1]।
পরিকল্পনা রিফ্রেশ - নতুন বিভাগ, নতুন স্ল্যাং, নতুন ডোমেন আসে; ছোট, ঘন ঘন আপডেটের সময়সূচী করুন [3]।

হাজার হাজার হট টেক থেকে তুমি এই লুপ থেকে আরও বেশি কিছু শিখতে পারবে। আর ব্যাকআপও রাখো। দয়া করে।

দলগুলোর উপর লুকিয়ে থাকা সাধারণ সমস্যাগুলি 🪤

ডেটা ফাঁস - উত্তরটি বৈশিষ্ট্যগুলিতে চলে যায় (যেমন, ফলাফল পূর্বাভাস দেওয়ার জন্য পোস্ট-রেজোলিউশন ক্ষেত্রগুলি ব্যবহার করা)। প্রতারণার মতো মনে হয় কারণ এটি হয়।
অগভীর বৈচিত্র্য - একটি ভূগোল বা ডিভাইস বিশ্বব্যাপী বলে ছদ্মবেশ ধারণ করে। পরীক্ষাগুলি প্লটের মোড় প্রকাশ করবে।
লেবেল ড্রিফট - সময়ের সাথে সাথে মানদণ্ড পরিবর্তিত হয় কিন্তু লেবেল নির্দেশিকা অপরিবর্তিত থাকে। আপনার অন্টোলজির নথি তৈরি করুন এবং সংস্করণ তৈরি করুন।
অনির্দিষ্ট উদ্দেশ্য - আপনি যদি একটি ভুল পূর্বাভাসকে সংজ্ঞায়িত করতে না পারেন, তবে আপনার ডেটাও তা পারবে না।
অগোছালো লাইসেন্স - এখনই স্ক্র্যাপ করা, পরে ক্ষমা চাওয়া, কোনও কৌশল নয়।
অতিরিক্ত বৃদ্ধি - কৃত্রিম তথ্য যা অবাস্তব শিল্পকর্ম শেখায়, যেমন প্লাস্টিকের ফলের উপর একজন শেফকে প্রশিক্ষণ দেওয়া।

এই বাক্যাংশটি সম্পর্কে দ্রুত প্রায়শই জিজ্ঞাসিত প্রশ্নাবলী ❓

“এআই ডেটাসেট কী?”—এই প্রশ্নটি কি শুধু সংজ্ঞানির্ভর? মূলত তাই, তবে এটি এও ইঙ্গিত দেয় যে, মডেলকে নির্ভরযোগ্য করে তোলে এমন নীরস বিষয়গুলো নিয়েও আপনি ভাবেন।
আমার কি সবসময় লেবেল লাগবে? না। তত্ত্বাবধানবিহীন, স্ব-তত্ত্বাবধানে থাকা, এবং আরএল সেটআপগুলি প্রায়শই স্পষ্ট লেবেল এড়িয়ে যায়, তবে কিউরেশন এখনও গুরুত্বপূর্ণ।
আমি কি পাবলিক ডেটা যেকোনো কিছুর জন্য ব্যবহার করতে পারি? না। লাইসেন্স, প্ল্যাটফর্মের শর্তাবলী এবং গোপনীয়তার বাধ্যবাধকতাগুলিকে সম্মান করুন [4]।
বড় না ভালো? আদর্শভাবে, দুটোই। যদি তোমাকে বেছে নিতেই হয়, তাহলে আগে ভালোটা বেছে নাও।

শেষ মন্তব্য - আপনি যা স্ক্রিনশট নিতে পারেন 📌

যদি কেউ আপনাকে জিজ্ঞাসা করে যে এআই ডেটাসেট কী, তাহলে বলুন: এটি হলো কিছু নির্বাচিত ও নথিভুক্ত নমুনার একটি সংগ্রহ, যা একটি মডেলকে শেখায় ও পরীক্ষা করে এবং একটি সুশাসনের আওতায় থাকে, যাতে মানুষ এর ফলাফলের ওপর আস্থা রাখতে পারে। সেরা ডেটাসেটগুলো হয় প্রতিনিধিত্বমূলক, ভালোভাবে লেবেল করা, আইনগতভাবে স্বচ্ছ এবং ক্রমাগত রক্ষণাবেক্ষণ করা হয়। বাকিটা হলো খুঁটিনাটি বিষয়—গুরুত্বপূর্ণ খুঁটিনাটি—যেমন এর গঠন, বিভাজন এবং সেই সব ছোট ছোট রক্ষাকবচ যা মডেলগুলোকে মূল পথ থেকে বিচ্যুত হওয়া থেকে বিরত রাখে। কখনও কখনও এই প্রক্রিয়াটিকে স্প্রেডশিট দিয়ে বাগান করার মতো মনে হয়; আবার কখনও পিক্সেল সামলানোর মতো। যেভাবেই হোক, ডেটার পেছনে বিনিয়োগ করুন, দেখবেন আপনার মডেলগুলো কম অদ্ভুত আচরণ করবে। 🌱🤖

তথ্যসূত্র

[1] ডেটাসেটের জন্য ডেটাশিট - গেব্রু এট আল।, arXiv। লিঙ্ক
[2] মডেল রিপোর্টিংয়ের জন্য মডেল কার্ড - মিচেল এট আল।, arXiv। লিঙ্ক
[3] NIST কৃত্রিম বুদ্ধিমত্তা ঝুঁকি ব্যবস্থাপনা ফ্রেমওয়ার্ক (AI RMF 1.0)। লিঙ্ক
[4] UK GDPR নির্দেশিকা এবং রিসোর্স - তথ্য কমিশনারের অফিস (ICO)। লিঙ্ক
[5] ক্রস-ভ্যালিডেশন: এস্টিমেটরের কর্মক্ষমতা মূল্যায়ন - scikit-learn ব্যবহারকারী নির্দেশিকা। লিঙ্ক

অফিসিয়াল এআই অ্যাসিস্ট্যান্ট স্টোরে সর্বশেষ এআই খুঁজুন

আমাদের সম্পর্কে

ব্লগে ফিরে যান