আপনি যদি AI সিস্টেম তৈরি, কিনছেন, অথবা এমনকি মূল্যায়ন করছেন, তাহলে আপনার সামনে একটি বিভ্রান্তিকর সহজ প্রশ্নের সম্মুখীন হবে এবং তা হল AI ডেটাসেট কী এবং এটি কেন এত গুরুত্বপূর্ণ? সংক্ষিপ্ত সংস্করণ: এটি আপনার মডেলের জ্বালানি, রান্নার বই এবং কখনও কখনও কম্পাস।
এর পরে আপনি যে প্রবন্ধগুলি পড়তে পছন্দ করতে পারেন:
🔗 এআই কীভাবে প্রবণতার পূর্বাভাস দেয়
ভবিষ্যতের ঘটনা এবং আচরণের পূর্বাভাস দেওয়ার জন্য AI কীভাবে নিদর্শন বিশ্লেষণ করে তা অন্বেষণ করে।
🔗 এআই কর্মক্ষমতা কীভাবে পরিমাপ করা যায়
নির্ভুলতা, দক্ষতা এবং মডেল নির্ভরযোগ্যতা মূল্যায়নের জন্য মেট্রিক্স এবং পদ্ধতি।
🔗 এআই-এর সাথে কীভাবে কথা বলবেন
AI-উত্পাদিত প্রতিক্রিয়া উন্নত করার জন্য আরও ভাল মিথস্ক্রিয়া তৈরির নির্দেশিকা।
🔗 এআই কী প্রম্পট করছে?
প্রম্পট কীভাবে AI আউটপুট এবং সামগ্রিক যোগাযোগের মান গঠন করে তার সারসংক্ষেপ।
এআই ডেটাসেট কী? একটি দ্রুত সংজ্ঞা 🧩
একটি AI ডেটাসেট কী? এটি এমন কিছু উদাহরণের সংগ্রহ যা থেকে আপনার মডেল শেখে বা মূল্যায়ন করা হয়। প্রতিটি উদাহরণে রয়েছে:
-
ইনপুট - মডেলটি যে বৈশিষ্ট্যগুলি দেখে, যেমন টেক্সট স্নিপেট, ছবি, অডিও, ট্যাবুলার সারি, সেন্সর রিডিং, গ্রাফ।
-
লক্ষ্য - মডেলের ভবিষ্যদ্বাণী করা উচিত এমন লেবেল বা ফলাফল, যেমন বিভাগ, সংখ্যা, পাঠ্যের বিস্তৃতি, ক্রিয়া, অথবা কখনও কখনও কিছুই না।
-
মেটাডেটা - উৎস, সংগ্রহ পদ্ধতি, টাইমস্ট্যাম্প, লাইসেন্স, সম্মতি তথ্য এবং মানের উপর নোটের মতো প্রসঙ্গ।
আপনার মডেলের জন্য এটিকে সাবধানে প্যাক করা লাঞ্চবক্সের মতো ভাবুন: উপাদান, লেবেল, পুষ্টির তথ্য, এবং হ্যাঁ, স্টিকি নোট যা বলে "এই অংশটি খাবেন না।" 🍱
তত্ত্বাবধানে থাকা কাজের জন্য, আপনি স্পষ্ট লেবেলের সাথে যুক্ত ইনপুট দেখতে পাবেন। তত্ত্বাবধানে না থাকা কাজের জন্য, আপনি লেবেল ছাড়াই ইনপুট দেখতে পাবেন। রিইনফোর্সমেন্ট লার্নিংয়ের জন্য, ডেটা প্রায়শই অবস্থা, ক্রিয়া, পুরষ্কার সহ পর্ব বা ট্র্যাজেক্টোরির মতো দেখায়। মাল্টিমোডাল কাজের জন্য, উদাহরণগুলি একটি একক রেকর্ডে পাঠ্য + চিত্র + অডিও একত্রিত করতে পারে। অভিনব শোনাচ্ছে; বেশিরভাগই প্লাম্বিং।
সহায়ক প্রাইমার এবং অনুশীলন: ডেটাসেটের জন্য ডেটাশিট ধারণাটি দলগুলিকে ভিতরে কী আছে এবং এটি কীভাবে ব্যবহার করা উচিত তা ব্যাখ্যা করতে সাহায্য করে [1], এবং মডেল কার্ডগুলি মডেলের দিকে ডেটা ডকুমেন্টেশনের পরিপূরক [2]।

একটি ভালো এআই ডেটাসেট কী তৈরি করে ✅
সত্যি কথা বলতে, অনেক মডেল সফল হয় কারণ ডেটাসেটটি খারাপ ছিল না। একটি "ভালো" ডেটাসেট হল:
-
শুধুমাত্র ল্যাবের অবস্থার নয়, বাস্তব ব্যবহারের ক্ষেত্রের প্রতিনিধিত্ব করে
-
স্পষ্ট নির্দেশিকা এবং পর্যায়ক্রমিক বিচার সহ সঠিকভাবে লেবেলযুক্ত
-
সম্পূর্ণ এবং ভারসাম্যপূর্ণ । ভারসাম্যহীনতা স্বাভাবিক; অবহেলা নয়।
-
উৎপত্তিস্থল পরিষ্কার । বিরক্তিকর কাগজপত্র উত্তেজনাপূর্ণ মামলাগুলিকে বাধা দেয়।
-
ভালোভাবে নথিভুক্ত করা হয়েছে যা উদ্দেশ্যপ্রণোদিত ব্যবহার, সীমা এবং জ্ঞাত ব্যর্থতার মোডগুলি বানান করে [1]
-
পরিচালিত । যদি আপনি ডেটাসেট পুনরুত্পাদন করতে না পারেন, তাহলে আপনি মডেলটি পুনরুত্পাদন করতে পারবেন না। NIST-এর AI ঝুঁকি ব্যবস্থাপনা কাঠামোর ডেটার মান এবং ডকুমেন্টেশনকে প্রথম শ্রেণীর উদ্বেগ হিসেবে বিবেচনা করে [3]।
আপনার কাজের উপর নির্ভর করে AI ডেটাসেটের প্রকারভেদ 🧰
কাজের মাধ্যমে
-
শ্রেণীবিভাগ - যেমন, স্প্যাম বনাম স্প্যাম নয়, ছবির বিভাগ।
-
রিগ্রেশন - মূল্য বা তাপমাত্রার মতো একটি অবিচ্ছিন্ন মানের পূর্বাভাস দিন।
-
সিকোয়েন্স লেবেলিং - নামযুক্ত সত্তা, বক্তৃতার অংশ।
-
প্রজন্ম - সারসংক্ষেপ, অনুবাদ, ছবির ক্যাপশন।
-
সুপারিশ - ব্যবহারকারী, আইটেম, মিথস্ক্রিয়া, প্রসঙ্গ।
-
অসঙ্গতি সনাক্তকরণ - সময় সিরিজ বা লগে বিরল ঘটনা।
-
শক্তিবৃদ্ধি শিক্ষণ - অবস্থা, কর্ম, পুরস্কার, পরবর্তী-অবস্থার ক্রম।
-
পুনরুদ্ধার - নথি, প্রশ্ন, প্রাসঙ্গিকতার রায়।
পদ্ধতি অনুসারে
-
ট্যাবুলার - বয়স, আয়, মন্থনের মতো কলাম। অবমূল্যায়ন, নিষ্ঠুরভাবে কার্যকর।
-
টেক্সট - ডকুমেন্ট, চ্যাট, কোড, ফোরাম পোস্ট, পণ্যের বিবরণ।
-
ছবি - ছবি, মেডিকেল স্ক্যান, স্যাটেলাইট টাইলস; মাস্ক, বাক্স, কীপয়েন্ট সহ বা ছাড়া।
-
অডিও - তরঙ্গরূপ, প্রতিলিপি, স্পিকার ট্যাগ।
-
ভিডিও - ফ্রেম, টেম্পোরাল টীকা, অ্যাকশন লেবেল।
-
গ্রাফ - নোড, প্রান্ত, বৈশিষ্ট্য।
-
সময় সিরিজ - সেন্সর, অর্থায়ন, টেলিমেট্রি।
তত্ত্বাবধানে
-
লেবেলযুক্ত (সোনালী, রূপা, স্বয়ংক্রিয় লেবেলযুক্ত), দুর্বল লেবেলযুক্ত , লেবেলবিহীন , সিন্থেটিক । দোকান থেকে কেনা কেক মিক্সটি ভালো হতে পারে - যদি আপনি বাক্সটি পড়েন।
বাক্সের ভেতরে: গঠন, বিভাজন এবং মেটাডেটা 📦
একটি শক্তিশালী ডেটাসেটে সাধারণত অন্তর্ভুক্ত থাকে:
-
স্কিমা - টাইপ করা ক্ষেত্র, ইউনিট, অনুমোদিত মান, নাল হ্যান্ডলিং।
-
বিভক্ত - প্রশিক্ষণ, যাচাইকরণ, পরীক্ষা। পরীক্ষার তথ্য সিল করে রাখুন - এটিকে চকোলেটের শেষ টুকরোর মতো ব্যবহার করুন।
-
নমুনা পরিকল্পনা - আপনি জনসংখ্যা থেকে কীভাবে উদাহরণ আঁকলেন; একটি অঞ্চল বা ডিভাইস থেকে সুবিধাজনক নমুনা এড়িয়ে চলুন।
-
বর্ধন - উল্টানো, ফসল কাটা, শব্দ, প্যারাফ্রেজ, মুখোশ। সৎ হলে ভালো; যখন তারা এমন নকশা তৈরি করে যা বনে কখনও ঘটে না তখন ক্ষতিকারক।
-
সংস্করণ - ডেটাসেট v0.1, v0.2… ডেল্টা বর্ণনাকারী চেঞ্জলগ সহ।
-
লাইসেন্স এবং সম্মতি - ব্যবহারের অধিকার, পুনর্বণ্টন এবং মুছে ফেলার প্রবাহ। জাতীয় তথ্য-সুরক্ষা নিয়ন্ত্রকরা (যেমন, যুক্তরাজ্যের ICO) ব্যবহারিক, আইনসম্মত-প্রক্রিয়াকরণ চেকলিস্ট প্রদান করে [4]।
ডেটাসেটের জীবনচক্র, ধাপে ধাপে 🔁
-
সিদ্ধান্তটি সংজ্ঞায়িত করুন - মডেলটি কী সিদ্ধান্ত নেবে এবং যদি এটি ভুল হয় তবে কী হবে।
-
পরিধির বৈশিষ্ট্য এবং লেবেল - পরিমাপযোগ্য, পর্যবেক্ষণযোগ্য, সংগ্রহ করার জন্য নীতিগত।
-
উৎস তথ্য - যন্ত্র, লগ, জরিপ, পাবলিক কর্পোরা, অংশীদার।
-
সম্মতি এবং আইনি - গোপনীয়তা বিজ্ঞপ্তি, অপ্ট-আউট, ডেটা মিনিমাইজেশন। "কেন" এবং "কিভাবে" [4] এর জন্য নিয়ন্ত্রক নির্দেশিকা দেখুন।
-
সংগ্রহ এবং সংরক্ষণ - নিরাপদ সঞ্চয়স্থান, ভূমিকা-ভিত্তিক অ্যাক্সেস, PII পরিচালনা।
-
লেবেল - অভ্যন্তরীণ টীকাকার, ক্রাউডসোর্সিং, বিশেষজ্ঞ; সোনালী কাজ, অডিট এবং চুক্তির মেট্রিক্সের মাধ্যমে গুণমান পরিচালনা করুন।
-
পরিষ্কার এবং স্বাভাবিক করুন - অনুপস্থিতি দূর করুন, অনুপস্থিতি মোকাবেলা করুন, ইউনিটগুলিকে মানসম্মত করুন, এনকোডিং ঠিক করুন। বিরক্তিকর, বীরত্বপূর্ণ কাজ।
-
বিভক্ত করুন এবং যাচাই করুন - ফাঁস রোধ করুন; প্রাসঙ্গিক স্থানে স্তরবিন্যাস করুন; টেম্পোরাল ডেটার জন্য সময়-সচেতন বিভাজন পছন্দ করুন; এবং শক্তিশালী অনুমানের জন্য চিন্তাভাবনা করে ক্রস-বৈধকরণ ব্যবহার করুন [5]।
-
ডকুমেন্ট - ডেটাশিট বা ডেটা কার্ড; উদ্দেশ্যপ্রণোদিত ব্যবহার, সতর্কতা, সীমাবদ্ধতা [1]।
-
মনিটর এবং আপডেট - ড্রিফ্ট ডিটেকশন, রিফ্রেশ ক্যাডেন্স, সূর্যাস্ত পরিকল্পনা। NIST-এর AI RMF এই চলমান গভর্নেন্স লুপটিকে ফ্রেম করে [3]।
দ্রুত, বাস্তব-আকৃতির টিপস: দলগুলি প্রায়শই "ডেমো জিততে পারে" কিন্তু উৎপাদনে হোঁচট খায় কারণ তাদের ডেটাসেটটি নীরবে সরে যায় - নতুন পণ্য লাইন, একটি নামকরণ করা ক্ষেত্র, অথবা একটি পরিবর্তিত নীতি। একটি সাধারণ চেঞ্জলগ + পর্যায়ক্রমিক পুনঃটীকা পাস সেই যন্ত্রণার বেশিরভাগ অংশ এড়াতে পারে।
ডেটার মান এবং মূল্যায়ন - যতটা বিরক্তিকর শোনাচ্ছে ততটা নয় 🧪
গুণমান বহুমাত্রিক:
-
নির্ভুলতা - লেবেলগুলি কি ঠিক? চুক্তির মেট্রিক্স এবং পর্যায়ক্রমিক রায় ব্যবহার করুন।
-
সম্পূর্ণতা - আপনার সত্যিকার অর্থে প্রয়োজনীয় ক্ষেত্র এবং শ্রেণীগুলি অন্তর্ভুক্ত করুন।
-
ধারাবাহিকতা - অনুরূপ ইনপুটগুলির জন্য পরস্পরবিরোধী লেবেল এড়িয়ে চলুন।
-
সময়োপযোগীতা - পুরানো তথ্য অনুমানকে জীবাশ্ম করে।
-
ন্যায্যতা এবং পক্ষপাত - জনসংখ্যা, ভাষা, ডিভাইস, পরিবেশ জুড়ে কভারেজ; বর্ণনামূলক নিরীক্ষা দিয়ে শুরু করুন, তারপর চাপ পরীক্ষা করুন। ডকুমেন্টেশন-প্রথম অনুশীলনগুলি (ডেটাশিট, মডেল কার্ড) এই চেকগুলিকে দৃশ্যমান করে তোলে [1], এবং শাসন কাঠামোগুলি ঝুঁকি নিয়ন্ত্রণ হিসাবে তাদের উপর জোর দেয় [3]।
মডেল মূল্যায়নের জন্য, সঠিক বিভাজন এবং গড় মেট্রিক্স এবং সবচেয়ে খারাপ-গ্রুপ মেট্রিক্স উভয়ই ট্র্যাক করুন। একটি উজ্জ্বল গড় একটি গর্ত লুকিয়ে রাখতে পারে। ক্রস-বৈধকরণের মূল বিষয়গুলি স্ট্যান্ডার্ড ML টুলিং ডক্স [5]-এ ভালভাবে আচ্ছাদিত।
নীতিশাস্ত্র, গোপনীয়তা এবং লাইসেন্সিং - রেলিং 🛡️
নীতিগত তথ্য কোনও আবেগ নয়, এটি একটি প্রক্রিয়া:
-
সম্মতি এবং উদ্দেশ্য সীমাবদ্ধতা - ব্যবহার এবং আইনি ভিত্তি সম্পর্কে স্পষ্ট থাকুন [4]।
-
PII পরিচালনা - যথাযথভাবে ছোট করুন, ছদ্মনাম দিন, অথবা বেনামী রাখুন; ঝুঁকি বেশি থাকলে গোপনীয়তা বৃদ্ধিকারী প্রযুক্তি বিবেচনা করুন।
-
অ্যাট্রিবিউশন এবং লাইসেন্স - শেয়ার-অ্যালাইক এবং বাণিজ্যিক-ব্যবহারের বিধিনিষেধ মেনে চলুন।
-
পক্ষপাত ও ক্ষতি - জাল সম্পর্কের জন্য নিরীক্ষা ("দিনের আলো = নিরাপদ" রাতে খুব বিভ্রান্তিকর হবে)।
-
রিড্রেস - অনুরোধের ভিত্তিতে ডেটা কীভাবে সরিয়ে ফেলতে হয় এবং কীভাবে প্রশিক্ষিত মডেলদের রোল ব্যাক করতে হয় তা জানুন (এটি আপনার ডেটাশিটে নথিভুক্ত করুন) [1]।
কত বড় মানে যথেষ্ট? সাইজিং এবং সিগন্যাল-টু-নয়েজ 📏
নিয়ম: হলে অগোছালো নমুনার তুলনায় কম, পরিষ্কার, ভালো লেবেলযুক্ত ব্যবহার করা ভালো
লক্ষ্য রাখুন:
-
শেখার বক্ররেখা - প্লটের পারফরম্যান্স বনাম নমুনার আকার, আপনি ডেটা-আবদ্ধ নাকি মডেল-আবদ্ধ তা দেখার জন্য।
-
লং-টেইল কভারেজ - বিরল কিন্তু গুরুত্বপূর্ণ ক্লাসগুলির জন্য প্রায়শই লক্ষ্যবস্তু সংগ্রহের প্রয়োজন হয়, কেবল আরও বেশি পরিমাণে নয়।
-
লেবেলের শব্দ - পরিমাপ করুন, তারপর কমিয়ে দিন; সামান্য সহনীয়, জোয়ারের ঢেউ সহ্যযোগ্য নয়।
-
বিতরণ স্থানান্তর - এক অঞ্চল বা চ্যানেল থেকে প্রশিক্ষণের তথ্য অন্য অঞ্চলে সাধারণীকরণ নাও হতে পারে; লক্ষ্য-সদৃশ পরীক্ষার তথ্যের উপর যাচাই করুন [5]।
সন্দেহ হলে, ছোট ছোট পাইলট চালান এবং প্রসারিত করুন। এটি মশলা যোগ করার মতো - যোগ করুন, স্বাদ নিন, সামঞ্জস্য করুন, পুনরাবৃত্তি করুন।
ডেটাসেটগুলি কোথায় খুঁজে পাবেন এবং পরিচালনা করবেন 🗂️
জনপ্রিয় রিসোর্স এবং টুলিং (এখনই URL গুলি মুখস্থ করার দরকার নেই):
-
আলিঙ্গন মুখ ডেটাসেট - প্রোগ্রাম্যাটিক লোডিং, প্রক্রিয়াকরণ, ভাগাভাগি।
-
গুগল ডেটাসেট অনুসন্ধান - ওয়েব জুড়ে মেটা-অনুসন্ধান।
-
UCI ML রিপোজিটরি - বেসলাইন এবং শিক্ষাদানের জন্য কিউরেটেড ক্লাসিক।
-
OpenML - টাস্ক + ডেটাসেট + উৎপত্তিস্থল সহ রান।
-
AWS ওপেন ডেটা / গুগল ক্লাউড পাবলিক ডেটাসেট - হোস্টেড, বৃহৎ আকারের কর্পোরা।
পেশাদার পরামর্শ: শুধু ডাউনলোড করবেন না। লাইসেন্স এবং ডেটাশিটটি পড়ুন , তারপর সংস্করণ নম্বর এবং উৎপত্তিস্থল [1] সহ আপনার নিজস্ব কপিটি নথিভুক্ত করুন।
লেবেলিং এবং টীকা - যেখানে সত্য নিয়ে আলোচনা হয় ✍️
টীকা হলো সেই জায়গা যেখানে আপনার তাত্ত্বিক লেবেল গাইড বাস্তবতার সাথে লড়াই করে:
-
টাস্ক ডিজাইন - উদাহরণ এবং পাল্টা উদাহরণ সহ স্পষ্ট নির্দেশাবলী লিখুন।
-
অ্যানোটেটর প্রশিক্ষণ - সোনালী উত্তর সহ বীজ, ক্যালিব্রেশন রাউন্ড চালান।
-
মান নিয়ন্ত্রণ - চুক্তির মেট্রিক্স, ঐক্যমত্য প্রক্রিয়া এবং পর্যায়ক্রমিক নিরীক্ষা ব্যবহার করুন।
-
টুলিং - এমন টুল বেছে নিন যা স্কিমা বৈধতা এবং পর্যালোচনা সারি জোরদার করে; এমনকি স্প্রেডশিটগুলিও নিয়ম এবং চেকের সাথে কাজ করতে পারে।
-
প্রতিক্রিয়া লুপ - নির্দেশিকাটি পরিমার্জন করার জন্য টীকাকারের নোট এবং মডেলের ভুলগুলি ক্যাপচার করুন।
যদি কমা নিয়ে দ্বিমত পোষণকারী তিন বন্ধুর সাথে অভিধান সম্পাদনা করার মতো মনে হয়... তাহলে এটাই স্বাভাবিক। 🙃
তথ্য ডকুমেন্টেশন - অন্তর্নিহিত জ্ঞানকে স্পষ্ট করে তোলা 📒
একটি হালকা ওজনের ডেটাশিট বা ডেটা কার্ডে নিম্নলিখিত বিষয়গুলি অন্তর্ভুক্ত থাকা উচিত:
-
কে, কীভাবে এবং কেন এটি সংগ্রহ করেছিল।
-
উদ্দেশ্যপ্রণোদিত ব্যবহার এবং সুযোগের বাইরে ব্যবহার।
-
জ্ঞাত ফাঁক, পক্ষপাত এবং ব্যর্থতার ধরণ।
-
লেবেলিং প্রোটোকল, QA ধাপ এবং চুক্তির পরিসংখ্যান।
-
লাইসেন্স, সম্মতি, সমস্যার জন্য যোগাযোগ, অপসারণ প্রক্রিয়া।
টেমপ্লেট এবং উদাহরণ: ডেটাসেট এবং মডেল কার্ডের ব্যাপকভাবে ব্যবহৃত শুরুর বিন্দু [1]।
তৈরি করার সময় লিখুন, পরে নয়। স্মৃতি একটি অস্থির সঞ্চয় মাধ্যম।
তুলনা সারণী - AI ডেটাসেট খুঁজে বের করার বা হোস্ট করার জায়গা 📊
হ্যাঁ, এটা একটু মতামতপ্রণোদিত। আর শব্দবিন্যাস ইচ্ছাকৃতভাবে কিছুটা অসম। ঠিক আছে।
| টুল / রেপো | পাঠকবর্গ | দাম | কেন এটি বাস্তবে কাজ করে |
|---|---|---|---|
| আলিঙ্গন মুখ ডেটাসেট | গবেষক, প্রকৌশলী | ফ্রি-টায়ার | দ্রুত লোডিং, স্ট্রিমিং, কমিউনিটি স্ক্রিপ্ট; চমৎকার ডক্স; ভার্সন করা ডেটাসেট |
| গুগল ডেটাসেট অনুসন্ধান | সবাই | বিনামূল্যে | বিস্তৃত পৃষ্ঠতল; আবিষ্কারের জন্য দুর্দান্ত; কখনও কখনও অসঙ্গত মেটাডেটাও থাকে |
| UCI ML রিপোজিটরি | শিক্ষার্থী, শিক্ষক | বিনামূল্যে | কিউরেটেড ক্লাসিক; ছোট কিন্তু পরিপাটি; বেসলাইন এবং শিক্ষাদানের জন্য ভালো |
| ওপেনএমএল | রেপ্রো গবেষকরা | বিনামূল্যে | টাস্ক + ডেটাসেট + একসাথে রান; চমৎকার উৎপত্তি পথ |
| AWS ওপেন ডেটা রেজিস্ট্রি | ডেটা ইঞ্জিনিয়াররা | বেশিরভাগ বিনামূল্যে | পেটাবাইট-স্কেল হোস্টিং; ক্লাউড-নেটিভ অ্যাক্সেস; ঘড়ির বাইরে যাওয়ার খরচ |
| ক্যাগল ডেটাসেট | অনুশীলনকারীরা | বিনামূল্যে | সহজে ভাগাভাগি, স্ক্রিপ্ট, প্রতিযোগিতা; কমিউনিটি সিগন্যাল শব্দ ফিল্টার করতে সাহায্য করে |
| গুগল ক্লাউড পাবলিক ডেটাসেট | বিশ্লেষক, দল | ফ্রি + ক্লাউড | কম্পিউটের কাছাকাছি হোস্ট করা হয়েছে; BigQuery ইন্টিগ্রেশন; বিলিং এর ক্ষেত্রে সতর্ক থাকুন |
| একাডেমিক পোর্টাল, ল্যাবরেটরি | কুলুঙ্গি বিশেষজ্ঞরা | পরিবর্তিত হয় | অত্যন্ত বিশেষজ্ঞ; কখনও কখনও কম নথিভুক্ত - এখনও অনুসন্ধানের যোগ্য |
(যদি কোনও সেল অপ্রস্তুত দেখায়, তাহলে সেটা ইচ্ছাকৃত।)
আপনার প্রথমটি তৈরি করা - একটি ব্যবহারিক স্টার্টার কিট 🛠️
আপনি "এআই ডেটাসেট কী" থেকে "আমি একটি তৈরি করেছি, এটি কাজ করে" -এ যেতে চান। এই ন্যূনতম পথটি চেষ্টা করে দেখুন:
-
সিদ্ধান্ত এবং মেট্রিক লিখুন - যেমন, সঠিক দলটি পূর্বাভাস দিয়ে আগত সহায়তার ভুল পথ হ্রাস করুন। মেট্রিক: ম্যাক্রো-F1।
-
৫টি ইতিবাচক এবং ৫টি নেতিবাচক উদাহরণ তালিকাভুক্ত করুন - আসল টিকিটের নমুনা নিন; বানোয়াট করবেন না।
-
একটি লেবেল নির্দেশিকা খসড়া করুন - এক পৃষ্ঠা; স্পষ্ট অন্তর্ভুক্তি/বর্জনের নিয়ম।
-
একটি ছোট, আসল নমুনা সংগ্রহ করুন - বিভিন্ন বিভাগ থেকে কয়েকশ টিকিট; আপনার যে PII-এর প্রয়োজন নেই তা সরিয়ে ফেলুন।
-
লিকেজ চেকের মাধ্যমে বিভক্ত করুন - একই গ্রাহকের সমস্ত বার্তা এক ভাগে রাখুন; ভ্যারিয়েন্স অনুমান করতে ক্রস-ভ্যালিডেশন ব্যবহার করুন [5]।
-
QA দিয়ে টীকা লিখুন - একটি উপসেটে দুজন টীকা লিখুন; মতবিরোধ সমাধান করুন; নির্দেশিকা আপডেট করুন।
-
একটি সহজ বেসলাইন প্রশিক্ষণ দিন - লজিস্টিকস (যেমন, লিনিয়ার মডেল বা কমপ্যাক্ট ট্রান্সফরমার)। মূল বিষয় হল ডেটা পরীক্ষা করা, পদক জেতা নয়।
-
ত্রুটি পর্যালোচনা করুন - এটি কোথায় ব্যর্থ হয় এবং কেন; কেবল মডেল নয়, ডেটাসেট আপডেট করুন।
-
ডকুমেন্ট - ক্ষুদ্র ডেটাশিট: উৎস, লেবেল গাইড লিঙ্ক, বিভাজন, জ্ঞাত সীমা, লাইসেন্স [1]।
-
পরিকল্পনা রিফ্রেশ - নতুন বিভাগ, নতুন স্ল্যাং, নতুন ডোমেন আসে; ছোট, ঘন ঘন আপডেটের সময়সূচী করুন [3]।
হাজার হাজার হট টেক থেকে তুমি এই লুপ থেকে আরও বেশি কিছু শিখতে পারবে। আর ব্যাকআপও রাখো। দয়া করে।
দলগুলোর উপর লুকিয়ে থাকা সাধারণ সমস্যাগুলি 🪤
-
ডেটা ফাঁস - উত্তরটি বৈশিষ্ট্যগুলিতে চলে যায় (যেমন, ফলাফল পূর্বাভাস দেওয়ার জন্য পোস্ট-রেজোলিউশন ক্ষেত্রগুলি ব্যবহার করা)। প্রতারণার মতো মনে হয় কারণ এটি হয়।
-
অগভীর বৈচিত্র্য - একটি ভূগোল বা ডিভাইস বিশ্বব্যাপী বলে ছদ্মবেশ ধারণ করে। পরীক্ষাগুলি প্লটের মোড় প্রকাশ করবে।
-
লেবেল ড্রিফট - সময়ের সাথে সাথে মানদণ্ড পরিবর্তিত হয় কিন্তু লেবেল নির্দেশিকা পরিবর্তিত হয় না। আপনার অন্টোলজি নথিভুক্ত করুন এবং সংস্করণ করুন।
-
অনির্দিষ্ট উদ্দেশ্য - যদি আপনি একটি খারাপ ভবিষ্যদ্বাণী সংজ্ঞায়িত করতে না পারেন, তাহলে আপনার তথ্যও তা করবে না।
-
অগোছালো লাইসেন্স - এখনই স্ক্র্যাপ করা, পরে ক্ষমা চাওয়া, কোনও কৌশল নয়।
-
অতিরিক্ত বৃদ্ধি - কৃত্রিম তথ্য যা অবাস্তব শিল্পকর্ম শেখায়, যেমন প্লাস্টিকের ফলের উপর একজন শেফকে প্রশিক্ষণ দেওয়া।
এই বাক্যাংশটি সম্পর্কে দ্রুত প্রায়শই জিজ্ঞাসিত প্রশ্নাবলী ❓
-
"এআই ডেটাসেট কী?" কি কেবল একটি সংজ্ঞার বিষয়? বেশিরভাগ ক্ষেত্রেই, কিন্তু এটি একটি সংকেতও যে আপনি মডেলগুলিকে নির্ভরযোগ্য করে তোলে এমন বিরক্তিকর বিটগুলির বিষয়ে যত্নশীল।
-
আমার কি সবসময় লেবেল লাগবে? না। তত্ত্বাবধানবিহীন, স্ব-তত্ত্বাবধানে থাকা, এবং আরএল সেটআপগুলি প্রায়শই স্পষ্ট লেবেল এড়িয়ে যায়, তবে কিউরেশন এখনও গুরুত্বপূর্ণ।
-
আমি কি পাবলিক ডেটা যেকোনো কিছুর জন্য ব্যবহার করতে পারি? না। লাইসেন্স, প্ল্যাটফর্মের শর্তাবলী এবং গোপনীয়তার বাধ্যবাধকতাগুলিকে সম্মান করুন [4]।
-
বড় না ভালো? আদর্শভাবে, দুটোই। যদি তোমাকে বেছে নিতেই হয়, তাহলে আগে ভালোটা বেছে নাও।
শেষ মন্তব্য - আপনি যা স্ক্রিনশট নিতে পারেন 📌
যদি কেউ আপনাকে জিজ্ঞাসা করে যে AI ডেটাসেট কী , তাহলে বলুন: এটি একটি কিউরেটেড, ডকুমেন্টেড উদাহরণের সংগ্রহ যা একটি মডেলকে শেখানো এবং পরীক্ষা করা হয়, যা পরিচালনার মাধ্যমে মোড়ানো হয় যাতে লোকেরা ফলাফলের উপর আস্থা রাখতে পারে। সেরা ডেটাসেটগুলি প্রতিনিধিত্বমূলক, ভালভাবে লেবেলযুক্ত, আইনত পরিষ্কার এবং ক্রমাগত রক্ষণাবেক্ষণ করা হয়। বাকিগুলি হল বিশদ - গুরুত্বপূর্ণ বিশদ - কাঠামো, বিভাজন এবং সেই সমস্ত ছোট ছোট রেলিং সম্পর্কে যা মডেলগুলিকে ট্র্যাফিকের মধ্যে ঘোরাফেরা করতে বাধা দেয়। কখনও কখনও প্রক্রিয়াটি স্প্রেডশিট দিয়ে বাগান করার মতো মনে হয়; কখনও কখনও পিক্সেল সংগ্রহ করার মতো। যেভাবেই হোক, ডেটাতে বিনিয়োগ করুন, এবং আপনার মডেলগুলি কম অদ্ভুত আচরণ করবে। 🌱🤖
তথ্যসূত্র
[1] ডেটাসেটের জন্য ডেটাশিট - Gebru et al., arXiv. লিঙ্ক
[2] মডেল রিপোর্টিংয়ের জন্য মডেল কার্ড - Mitchell et al., arXiv. লিঙ্ক
[3] NIST কৃত্রিম বুদ্ধিমত্তা ঝুঁকি ব্যবস্থাপনা কাঠামো (AI RMF 1.0) । লিঙ্ক
[4] UK GDPR নির্দেশিকা এবং সংস্থান - তথ্য কমিশনারের অফিস (ICO)। লিঙ্ক
[5] ক্রস-ভ্যালিডেশন: অনুমানকারীর কর্মক্ষমতা মূল্যায়ন - scikit-learn ব্যবহারকারী নির্দেশিকা। লিঙ্ক