একটি এআই ডেটাসেট কী?

একটি এআই ডেটাসেট কী?

আপনি যদি AI সিস্টেম তৈরি, কিনছেন, অথবা এমনকি মূল্যায়ন করছেন, তাহলে আপনার সামনে একটি বিভ্রান্তিকর সহজ প্রশ্নের সম্মুখীন হবে এবং তা হল AI ডেটাসেট কী এবং এটি কেন এত গুরুত্বপূর্ণ? সংক্ষিপ্ত সংস্করণ: এটি আপনার মডেলের জ্বালানি, রান্নার বই এবং কখনও কখনও কম্পাস। 

এর পরে আপনি যে প্রবন্ধগুলি পড়তে পছন্দ করতে পারেন:

🔗 এআই কীভাবে প্রবণতার পূর্বাভাস দেয়
ভবিষ্যতের ঘটনা এবং আচরণের পূর্বাভাস দেওয়ার জন্য AI কীভাবে নিদর্শন বিশ্লেষণ করে তা অন্বেষণ করে।

🔗 এআই কর্মক্ষমতা কীভাবে পরিমাপ করা যায়
নির্ভুলতা, দক্ষতা এবং মডেল নির্ভরযোগ্যতা মূল্যায়নের জন্য মেট্রিক্স এবং পদ্ধতি।

🔗 এআই-এর সাথে কীভাবে কথা বলবেন
AI-উত্পাদিত প্রতিক্রিয়া উন্নত করার জন্য আরও ভাল মিথস্ক্রিয়া তৈরির নির্দেশিকা।

🔗 এআই কী প্রম্পট করছে?
প্রম্পট কীভাবে AI আউটপুট এবং সামগ্রিক যোগাযোগের মান গঠন করে তার সারসংক্ষেপ।


এআই ডেটাসেট কী? একটি দ্রুত সংজ্ঞা 🧩

একটি AI ডেটাসেট কী? এটি এমন কিছু উদাহরণের সংগ্রহ যা থেকে আপনার মডেল শেখে বা মূল্যায়ন করা হয়। প্রতিটি উদাহরণে রয়েছে:

  • ইনপুট - মডেলটি যে বৈশিষ্ট্যগুলি দেখে, যেমন টেক্সট স্নিপেট, ছবি, অডিও, ট্যাবুলার সারি, সেন্সর রিডিং, গ্রাফ।

  • লক্ষ্য - মডেলের ভবিষ্যদ্বাণী করা উচিত এমন লেবেল বা ফলাফল, যেমন বিভাগ, সংখ্যা, পাঠ্যের বিস্তৃতি, ক্রিয়া, অথবা কখনও কখনও কিছুই না।

  • মেটাডেটা - উৎস, সংগ্রহ পদ্ধতি, টাইমস্ট্যাম্প, লাইসেন্স, সম্মতি তথ্য এবং মানের উপর নোটের মতো প্রসঙ্গ।

আপনার মডেলের জন্য এটিকে সাবধানে প্যাক করা লাঞ্চবক্সের মতো ভাবুন: উপাদান, লেবেল, পুষ্টির তথ্য, এবং হ্যাঁ, স্টিকি নোট যা বলে "এই অংশটি খাবেন না।" 🍱

তত্ত্বাবধানে থাকা কাজের জন্য, আপনি স্পষ্ট লেবেলের সাথে যুক্ত ইনপুট দেখতে পাবেন। তত্ত্বাবধানে না থাকা কাজের জন্য, আপনি লেবেল ছাড়াই ইনপুট দেখতে পাবেন। রিইনফোর্সমেন্ট লার্নিংয়ের জন্য, ডেটা প্রায়শই অবস্থা, ক্রিয়া, পুরষ্কার সহ পর্ব বা ট্র্যাজেক্টোরির মতো দেখায়। মাল্টিমোডাল কাজের জন্য, উদাহরণগুলি একটি একক রেকর্ডে পাঠ্য + চিত্র + অডিও একত্রিত করতে পারে। অভিনব শোনাচ্ছে; বেশিরভাগই প্লাম্বিং।

সহায়ক প্রাইমার এবং অনুশীলন: ডেটাসেটের জন্য ডেটাশিট ধারণাটি দলগুলিকে ভিতরে কী আছে এবং এটি কীভাবে ব্যবহার করা উচিত তা ব্যাখ্যা করতে সাহায্য করে [1], এবং মডেল কার্ডগুলি মডেলের দিকে ডেটা ডকুমেন্টেশনের পরিপূরক [2]।

 

এআই ডেটাসেট

একটি ভালো এআই ডেটাসেট কী তৈরি করে ✅

সত্যি কথা বলতে, অনেক মডেল সফল হয় কারণ ডেটাসেটটি খারাপ ছিল না। একটি "ভালো" ডেটাসেট হল:

  • শুধুমাত্র ল্যাবের অবস্থার নয়, বাস্তব ব্যবহারের ক্ষেত্রের প্রতিনিধিত্ব করে

  • স্পষ্ট নির্দেশিকা এবং পর্যায়ক্রমিক বিচার সহ সঠিকভাবে লেবেলযুক্ত

  • সম্পূর্ণ এবং ভারসাম্যপূর্ণ । ভারসাম্যহীনতা স্বাভাবিক; অবহেলা নয়।

  • উৎপত্তিস্থল পরিষ্কার । বিরক্তিকর কাগজপত্র উত্তেজনাপূর্ণ মামলাগুলিকে বাধা দেয়।

  • ভালোভাবে নথিভুক্ত করা হয়েছে যা উদ্দেশ্যপ্রণোদিত ব্যবহার, সীমা এবং জ্ঞাত ব্যর্থতার মোডগুলি বানান করে [1]

  • পরিচালিত । যদি আপনি ডেটাসেট পুনরুত্পাদন করতে না পারেন, তাহলে আপনি মডেলটি পুনরুত্পাদন করতে পারবেন না। NIST-এর AI ঝুঁকি ব্যবস্থাপনা কাঠামোর ডেটার মান এবং ডকুমেন্টেশনকে প্রথম শ্রেণীর উদ্বেগ হিসেবে বিবেচনা করে [3]।


আপনার কাজের উপর নির্ভর করে AI ডেটাসেটের প্রকারভেদ 🧰

কাজের মাধ্যমে

  • শ্রেণীবিভাগ - যেমন, স্প্যাম বনাম স্প্যাম নয়, ছবির বিভাগ।

  • রিগ্রেশন - মূল্য বা তাপমাত্রার মতো একটি অবিচ্ছিন্ন মানের পূর্বাভাস দিন।

  • সিকোয়েন্স লেবেলিং - নামযুক্ত সত্তা, বক্তৃতার অংশ।

  • প্রজন্ম - সারসংক্ষেপ, অনুবাদ, ছবির ক্যাপশন।

  • সুপারিশ - ব্যবহারকারী, আইটেম, মিথস্ক্রিয়া, প্রসঙ্গ।

  • অসঙ্গতি সনাক্তকরণ - সময় সিরিজ বা লগে বিরল ঘটনা।

  • শক্তিবৃদ্ধি শিক্ষণ - অবস্থা, কর্ম, পুরস্কার, পরবর্তী-অবস্থার ক্রম।

  • পুনরুদ্ধার - নথি, প্রশ্ন, প্রাসঙ্গিকতার রায়।

পদ্ধতি অনুসারে

  • ট্যাবুলার - বয়স, আয়, মন্থনের মতো কলাম। অবমূল্যায়ন, নিষ্ঠুরভাবে কার্যকর।

  • টেক্সট - ডকুমেন্ট, চ্যাট, কোড, ফোরাম পোস্ট, পণ্যের বিবরণ।

  • ছবি - ছবি, মেডিকেল স্ক্যান, স্যাটেলাইট টাইলস; মাস্ক, বাক্স, কীপয়েন্ট সহ বা ছাড়া।

  • অডিও - তরঙ্গরূপ, প্রতিলিপি, স্পিকার ট্যাগ।

  • ভিডিও - ফ্রেম, টেম্পোরাল টীকা, অ্যাকশন লেবেল।

  • গ্রাফ - নোড, প্রান্ত, বৈশিষ্ট্য।

  • সময় সিরিজ - সেন্সর, অর্থায়ন, টেলিমেট্রি।

তত্ত্বাবধানে

  • লেবেলযুক্ত (সোনালী, রূপা, স্বয়ংক্রিয় লেবেলযুক্ত), দুর্বল লেবেলযুক্ত , লেবেলবিহীন , সিন্থেটিক । দোকান থেকে কেনা কেক মিক্সটি ভালো হতে পারে - যদি আপনি বাক্সটি পড়েন।


বাক্সের ভেতরে: গঠন, বিভাজন এবং মেটাডেটা 📦

একটি শক্তিশালী ডেটাসেটে সাধারণত অন্তর্ভুক্ত থাকে:

  • স্কিমা - টাইপ করা ক্ষেত্র, ইউনিট, অনুমোদিত মান, নাল হ্যান্ডলিং।

  • বিভক্ত - প্রশিক্ষণ, যাচাইকরণ, পরীক্ষা। পরীক্ষার তথ্য সিল করে রাখুন - এটিকে চকোলেটের শেষ টুকরোর মতো ব্যবহার করুন।

  • নমুনা পরিকল্পনা - আপনি জনসংখ্যা থেকে কীভাবে উদাহরণ আঁকলেন; একটি অঞ্চল বা ডিভাইস থেকে সুবিধাজনক নমুনা এড়িয়ে চলুন।

  • বর্ধন - উল্টানো, ফসল কাটা, শব্দ, প্যারাফ্রেজ, মুখোশ। সৎ হলে ভালো; যখন তারা এমন নকশা তৈরি করে যা বনে কখনও ঘটে না তখন ক্ষতিকারক।

  • সংস্করণ - ডেটাসেট v0.1, v0.2… ডেল্টা বর্ণনাকারী চেঞ্জলগ সহ।

  • লাইসেন্স এবং সম্মতি - ব্যবহারের অধিকার, পুনর্বণ্টন এবং মুছে ফেলার প্রবাহ। জাতীয় তথ্য-সুরক্ষা নিয়ন্ত্রকরা (যেমন, যুক্তরাজ্যের ICO) ব্যবহারিক, আইনসম্মত-প্রক্রিয়াকরণ চেকলিস্ট প্রদান করে [4]।


ডেটাসেটের জীবনচক্র, ধাপে ধাপে 🔁

  1. সিদ্ধান্তটি সংজ্ঞায়িত করুন - মডেলটি কী সিদ্ধান্ত নেবে এবং যদি এটি ভুল হয় তবে কী হবে।

  2. পরিধির বৈশিষ্ট্য এবং লেবেল - পরিমাপযোগ্য, পর্যবেক্ষণযোগ্য, সংগ্রহ করার জন্য নীতিগত।

  3. উৎস তথ্য - যন্ত্র, লগ, জরিপ, পাবলিক কর্পোরা, অংশীদার।

  4. সম্মতি এবং আইনি - গোপনীয়তা বিজ্ঞপ্তি, অপ্ট-আউট, ডেটা মিনিমাইজেশন। "কেন" এবং "কিভাবে" [4] এর জন্য নিয়ন্ত্রক নির্দেশিকা দেখুন।

  5. সংগ্রহ এবং সংরক্ষণ - নিরাপদ সঞ্চয়স্থান, ভূমিকা-ভিত্তিক অ্যাক্সেস, PII পরিচালনা।

  6. লেবেল - অভ্যন্তরীণ টীকাকার, ক্রাউডসোর্সিং, বিশেষজ্ঞ; সোনালী কাজ, অডিট এবং চুক্তির মেট্রিক্সের মাধ্যমে গুণমান পরিচালনা করুন।

  7. পরিষ্কার এবং স্বাভাবিক করুন - অনুপস্থিতি দূর করুন, অনুপস্থিতি মোকাবেলা করুন, ইউনিটগুলিকে মানসম্মত করুন, এনকোডিং ঠিক করুন। বিরক্তিকর, বীরত্বপূর্ণ কাজ।

  8. বিভক্ত করুন এবং যাচাই করুন - ফাঁস রোধ করুন; প্রাসঙ্গিক স্থানে স্তরবিন্যাস করুন; টেম্পোরাল ডেটার জন্য সময়-সচেতন বিভাজন পছন্দ করুন; এবং শক্তিশালী অনুমানের জন্য চিন্তাভাবনা করে ক্রস-বৈধকরণ ব্যবহার করুন [5]।

  9. ডকুমেন্ট - ডেটাশিট বা ডেটা কার্ড; উদ্দেশ্যপ্রণোদিত ব্যবহার, সতর্কতা, সীমাবদ্ধতা [1]।

  10. মনিটর এবং আপডেট - ড্রিফ্ট ডিটেকশন, রিফ্রেশ ক্যাডেন্স, সূর্যাস্ত পরিকল্পনা। NIST-এর AI RMF এই চলমান গভর্নেন্স লুপটিকে ফ্রেম করে [3]।

দ্রুত, বাস্তব-আকৃতির টিপস: দলগুলি প্রায়শই "ডেমো জিততে পারে" কিন্তু উৎপাদনে হোঁচট খায় কারণ তাদের ডেটাসেটটি নীরবে সরে যায় - নতুন পণ্য লাইন, একটি নামকরণ করা ক্ষেত্র, অথবা একটি পরিবর্তিত নীতি। একটি সাধারণ চেঞ্জলগ + পর্যায়ক্রমিক পুনঃটীকা পাস সেই যন্ত্রণার বেশিরভাগ অংশ এড়াতে পারে।


ডেটার মান এবং মূল্যায়ন - যতটা বিরক্তিকর শোনাচ্ছে ততটা নয় 🧪

গুণমান বহুমাত্রিক:

  • নির্ভুলতা - লেবেলগুলি কি ঠিক? চুক্তির মেট্রিক্স এবং পর্যায়ক্রমিক রায় ব্যবহার করুন।

  • সম্পূর্ণতা - আপনার সত্যিকার অর্থে প্রয়োজনীয় ক্ষেত্র এবং শ্রেণীগুলি অন্তর্ভুক্ত করুন।

  • ধারাবাহিকতা - অনুরূপ ইনপুটগুলির জন্য পরস্পরবিরোধী লেবেল এড়িয়ে চলুন।

  • সময়োপযোগীতা - পুরানো তথ্য অনুমানকে জীবাশ্ম করে।

  • ন্যায্যতা এবং পক্ষপাত - জনসংখ্যা, ভাষা, ডিভাইস, পরিবেশ জুড়ে কভারেজ; বর্ণনামূলক নিরীক্ষা দিয়ে শুরু করুন, তারপর চাপ পরীক্ষা করুন। ডকুমেন্টেশন-প্রথম অনুশীলনগুলি (ডেটাশিট, মডেল কার্ড) এই চেকগুলিকে দৃশ্যমান করে তোলে [1], এবং শাসন কাঠামোগুলি ঝুঁকি নিয়ন্ত্রণ হিসাবে তাদের উপর জোর দেয় [3]।

মডেল মূল্যায়নের জন্য, সঠিক বিভাজন এবং গড় মেট্রিক্স এবং সবচেয়ে খারাপ-গ্রুপ মেট্রিক্স উভয়ই ট্র্যাক করুন। একটি উজ্জ্বল গড় একটি গর্ত লুকিয়ে রাখতে পারে। ক্রস-বৈধকরণের মূল বিষয়গুলি স্ট্যান্ডার্ড ML টুলিং ডক্স [5]-এ ভালভাবে আচ্ছাদিত।


নীতিশাস্ত্র, গোপনীয়তা এবং লাইসেন্সিং - রেলিং 🛡️

নীতিগত তথ্য কোনও আবেগ নয়, এটি একটি প্রক্রিয়া:

  • সম্মতি এবং উদ্দেশ্য সীমাবদ্ধতা - ব্যবহার এবং আইনি ভিত্তি সম্পর্কে স্পষ্ট থাকুন [4]।

  • PII পরিচালনা - যথাযথভাবে ছোট করুন, ছদ্মনাম দিন, অথবা বেনামী রাখুন; ঝুঁকি বেশি থাকলে গোপনীয়তা বৃদ্ধিকারী প্রযুক্তি বিবেচনা করুন।

  • অ্যাট্রিবিউশন এবং লাইসেন্স - শেয়ার-অ্যালাইক এবং বাণিজ্যিক-ব্যবহারের বিধিনিষেধ মেনে চলুন।

  • পক্ষপাত ও ক্ষতি - জাল সম্পর্কের জন্য নিরীক্ষা ("দিনের আলো = নিরাপদ" রাতে খুব বিভ্রান্তিকর হবে)।

  • রিড্রেস - অনুরোধের ভিত্তিতে ডেটা কীভাবে সরিয়ে ফেলতে হয় এবং কীভাবে প্রশিক্ষিত মডেলদের রোল ব্যাক করতে হয় তা জানুন (এটি আপনার ডেটাশিটে নথিভুক্ত করুন) [1]।


কত বড় মানে যথেষ্ট? সাইজিং এবং সিগন্যাল-টু-নয়েজ 📏

নিয়ম: হলে অগোছালো নমুনার তুলনায় কম, পরিষ্কার, ভালো লেবেলযুক্ত ব্যবহার করা ভালো

লক্ষ্য রাখুন:

  • শেখার বক্ররেখা - প্লটের পারফরম্যান্স বনাম নমুনার আকার, আপনি ডেটা-আবদ্ধ নাকি মডেল-আবদ্ধ তা দেখার জন্য।

  • লং-টেইল কভারেজ - বিরল কিন্তু গুরুত্বপূর্ণ ক্লাসগুলির জন্য প্রায়শই লক্ষ্যবস্তু সংগ্রহের প্রয়োজন হয়, কেবল আরও বেশি পরিমাণে নয়।

  • লেবেলের শব্দ - পরিমাপ করুন, তারপর কমিয়ে দিন; সামান্য সহনীয়, জোয়ারের ঢেউ সহ্যযোগ্য নয়।

  • বিতরণ স্থানান্তর - এক অঞ্চল বা চ্যানেল থেকে প্রশিক্ষণের তথ্য অন্য অঞ্চলে সাধারণীকরণ নাও হতে পারে; লক্ষ্য-সদৃশ পরীক্ষার তথ্যের উপর যাচাই করুন [5]।

সন্দেহ হলে, ছোট ছোট পাইলট চালান এবং প্রসারিত করুন। এটি মশলা যোগ করার মতো - যোগ করুন, স্বাদ নিন, সামঞ্জস্য করুন, পুনরাবৃত্তি করুন।


ডেটাসেটগুলি কোথায় খুঁজে পাবেন এবং পরিচালনা করবেন 🗂️

জনপ্রিয় রিসোর্স এবং টুলিং (এখনই URL গুলি মুখস্থ করার দরকার নেই):

  • আলিঙ্গন মুখ ডেটাসেট - প্রোগ্রাম্যাটিক লোডিং, প্রক্রিয়াকরণ, ভাগাভাগি।

  • গুগল ডেটাসেট অনুসন্ধান - ওয়েব জুড়ে মেটা-অনুসন্ধান।

  • UCI ML রিপোজিটরি - বেসলাইন এবং শিক্ষাদানের জন্য কিউরেটেড ক্লাসিক।

  • OpenML - টাস্ক + ডেটাসেট + উৎপত্তিস্থল সহ রান।

  • AWS ওপেন ডেটা / গুগল ক্লাউড পাবলিক ডেটাসেট - হোস্টেড, বৃহৎ আকারের কর্পোরা।

পেশাদার পরামর্শ: শুধু ডাউনলোড করবেন না। লাইসেন্স এবং ডেটাশিটটি পড়ুন , তারপর সংস্করণ নম্বর এবং উৎপত্তিস্থল [1] সহ আপনার নিজস্ব কপিটি নথিভুক্ত করুন।


লেবেলিং এবং টীকা - যেখানে সত্য নিয়ে আলোচনা হয় ✍️

টীকা হলো সেই জায়গা যেখানে আপনার তাত্ত্বিক লেবেল গাইড বাস্তবতার সাথে লড়াই করে:

  • টাস্ক ডিজাইন - উদাহরণ এবং পাল্টা উদাহরণ সহ স্পষ্ট নির্দেশাবলী লিখুন।

  • অ্যানোটেটর প্রশিক্ষণ - সোনালী উত্তর সহ বীজ, ক্যালিব্রেশন রাউন্ড চালান।

  • মান নিয়ন্ত্রণ - চুক্তির মেট্রিক্স, ঐক্যমত্য প্রক্রিয়া এবং পর্যায়ক্রমিক নিরীক্ষা ব্যবহার করুন।

  • টুলিং - এমন টুল বেছে নিন যা স্কিমা বৈধতা এবং পর্যালোচনা সারি জোরদার করে; এমনকি স্প্রেডশিটগুলিও নিয়ম এবং চেকের সাথে কাজ করতে পারে।

  • প্রতিক্রিয়া লুপ - নির্দেশিকাটি পরিমার্জন করার জন্য টীকাকারের নোট এবং মডেলের ভুলগুলি ক্যাপচার করুন।

যদি কমা নিয়ে দ্বিমত পোষণকারী তিন বন্ধুর সাথে অভিধান সম্পাদনা করার মতো মনে হয়... তাহলে এটাই স্বাভাবিক। 🙃


তথ্য ডকুমেন্টেশন - অন্তর্নিহিত জ্ঞানকে স্পষ্ট করে তোলা 📒

একটি হালকা ওজনের ডেটাশিট বা ডেটা কার্ডে নিম্নলিখিত বিষয়গুলি অন্তর্ভুক্ত থাকা উচিত:

  • কে, কীভাবে এবং কেন এটি সংগ্রহ করেছিল।

  • উদ্দেশ্যপ্রণোদিত ব্যবহার এবং সুযোগের বাইরে ব্যবহার।

  • জ্ঞাত ফাঁক, পক্ষপাত এবং ব্যর্থতার ধরণ।

  • লেবেলিং প্রোটোকল, QA ধাপ এবং চুক্তির পরিসংখ্যান।

  • লাইসেন্স, সম্মতি, সমস্যার জন্য যোগাযোগ, অপসারণ প্রক্রিয়া।

টেমপ্লেট এবং উদাহরণ: ডেটাসেট এবং মডেল কার্ডের ব্যাপকভাবে ব্যবহৃত শুরুর বিন্দু [1]।

তৈরি করার সময় লিখুন, পরে নয়। স্মৃতি একটি অস্থির সঞ্চয় মাধ্যম।


তুলনা সারণী - AI ডেটাসেট খুঁজে বের করার বা হোস্ট করার জায়গা 📊

হ্যাঁ, এটা একটু মতামতপ্রণোদিত। আর শব্দবিন্যাস ইচ্ছাকৃতভাবে কিছুটা অসম। ঠিক আছে।

টুল / রেপো পাঠকবর্গ দাম কেন এটি বাস্তবে কাজ করে
আলিঙ্গন মুখ ডেটাসেট গবেষক, প্রকৌশলী ফ্রি-টায়ার দ্রুত লোডিং, স্ট্রিমিং, কমিউনিটি স্ক্রিপ্ট; চমৎকার ডক্স; ভার্সন করা ডেটাসেট
গুগল ডেটাসেট অনুসন্ধান সবাই বিনামূল্যে বিস্তৃত পৃষ্ঠতল; আবিষ্কারের জন্য দুর্দান্ত; কখনও কখনও অসঙ্গত মেটাডেটাও থাকে
UCI ML রিপোজিটরি শিক্ষার্থী, শিক্ষক বিনামূল্যে কিউরেটেড ক্লাসিক; ছোট কিন্তু পরিপাটি; বেসলাইন এবং শিক্ষাদানের জন্য ভালো
ওপেনএমএল রেপ্রো গবেষকরা বিনামূল্যে টাস্ক + ডেটাসেট + একসাথে রান; চমৎকার উৎপত্তি পথ
AWS ওপেন ডেটা রেজিস্ট্রি ডেটা ইঞ্জিনিয়াররা বেশিরভাগ বিনামূল্যে পেটাবাইট-স্কেল হোস্টিং; ক্লাউড-নেটিভ অ্যাক্সেস; ঘড়ির বাইরে যাওয়ার খরচ
ক্যাগল ডেটাসেট অনুশীলনকারীরা বিনামূল্যে সহজে ভাগাভাগি, স্ক্রিপ্ট, প্রতিযোগিতা; কমিউনিটি সিগন্যাল শব্দ ফিল্টার করতে সাহায্য করে
গুগল ক্লাউড পাবলিক ডেটাসেট বিশ্লেষক, দল ফ্রি + ক্লাউড কম্পিউটের কাছাকাছি হোস্ট করা হয়েছে; BigQuery ইন্টিগ্রেশন; বিলিং এর ক্ষেত্রে সতর্ক থাকুন
একাডেমিক পোর্টাল, ল্যাবরেটরি কুলুঙ্গি বিশেষজ্ঞরা পরিবর্তিত হয় অত্যন্ত বিশেষজ্ঞ; কখনও কখনও কম নথিভুক্ত - এখনও অনুসন্ধানের যোগ্য

(যদি কোনও সেল অপ্রস্তুত দেখায়, তাহলে সেটা ইচ্ছাকৃত।)


আপনার প্রথমটি তৈরি করা - একটি ব্যবহারিক স্টার্টার কিট 🛠️

আপনি "এআই ডেটাসেট কী" থেকে "আমি একটি তৈরি করেছি, এটি কাজ করে" -এ যেতে চান। এই ন্যূনতম পথটি চেষ্টা করে দেখুন:

  1. সিদ্ধান্ত এবং মেট্রিক লিখুন - যেমন, সঠিক দলটি পূর্বাভাস দিয়ে আগত সহায়তার ভুল পথ হ্রাস করুন। মেট্রিক: ম্যাক্রো-F1।

  2. ৫টি ইতিবাচক এবং ৫টি নেতিবাচক উদাহরণ তালিকাভুক্ত করুন - আসল টিকিটের নমুনা নিন; বানোয়াট করবেন না।

  3. একটি লেবেল নির্দেশিকা খসড়া করুন - এক পৃষ্ঠা; স্পষ্ট অন্তর্ভুক্তি/বর্জনের নিয়ম।

  4. একটি ছোট, আসল নমুনা সংগ্রহ করুন - বিভিন্ন বিভাগ থেকে কয়েকশ টিকিট; আপনার যে PII-এর প্রয়োজন নেই তা সরিয়ে ফেলুন।

  5. লিকেজ চেকের মাধ্যমে বিভক্ত করুন - একই গ্রাহকের সমস্ত বার্তা এক ভাগে রাখুন; ভ্যারিয়েন্স অনুমান করতে ক্রস-ভ্যালিডেশন ব্যবহার করুন [5]।

  6. QA দিয়ে টীকা লিখুন - একটি উপসেটে দুজন টীকা লিখুন; মতবিরোধ সমাধান করুন; নির্দেশিকা আপডেট করুন।

  7. একটি সহজ বেসলাইন প্রশিক্ষণ দিন - লজিস্টিকস (যেমন, লিনিয়ার মডেল বা কমপ্যাক্ট ট্রান্সফরমার)। মূল বিষয় হল ডেটা পরীক্ষা করা, পদক জেতা নয়।

  8. ত্রুটি পর্যালোচনা করুন - এটি কোথায় ব্যর্থ হয় এবং কেন; কেবল মডেল নয়, ডেটাসেট আপডেট করুন।

  9. ডকুমেন্ট - ক্ষুদ্র ডেটাশিট: উৎস, লেবেল গাইড লিঙ্ক, বিভাজন, জ্ঞাত সীমা, লাইসেন্স [1]।

  10. পরিকল্পনা রিফ্রেশ - নতুন বিভাগ, নতুন স্ল্যাং, নতুন ডোমেন আসে; ছোট, ঘন ঘন আপডেটের সময়সূচী করুন [3]।

হাজার হাজার হট টেক থেকে তুমি এই লুপ থেকে আরও বেশি কিছু শিখতে পারবে। আর ব্যাকআপও রাখো। দয়া করে।


দলগুলোর উপর লুকিয়ে থাকা সাধারণ সমস্যাগুলি 🪤

  • ডেটা ফাঁস - উত্তরটি বৈশিষ্ট্যগুলিতে চলে যায় (যেমন, ফলাফল পূর্বাভাস দেওয়ার জন্য পোস্ট-রেজোলিউশন ক্ষেত্রগুলি ব্যবহার করা)। প্রতারণার মতো মনে হয় কারণ এটি হয়।

  • অগভীর বৈচিত্র্য - একটি ভূগোল বা ডিভাইস বিশ্বব্যাপী বলে ছদ্মবেশ ধারণ করে। পরীক্ষাগুলি প্লটের মোড় প্রকাশ করবে।

  • লেবেল ড্রিফট - সময়ের সাথে সাথে মানদণ্ড পরিবর্তিত হয় কিন্তু লেবেল নির্দেশিকা পরিবর্তিত হয় না। আপনার অন্টোলজি নথিভুক্ত করুন এবং সংস্করণ করুন।

  • অনির্দিষ্ট উদ্দেশ্য - যদি আপনি একটি খারাপ ভবিষ্যদ্বাণী সংজ্ঞায়িত করতে না পারেন, তাহলে আপনার তথ্যও তা করবে না।

  • অগোছালো লাইসেন্স - এখনই স্ক্র্যাপ করা, পরে ক্ষমা চাওয়া, কোনও কৌশল নয়।

  • অতিরিক্ত বৃদ্ধি - কৃত্রিম তথ্য যা অবাস্তব শিল্পকর্ম শেখায়, যেমন প্লাস্টিকের ফলের উপর একজন শেফকে প্রশিক্ষণ দেওয়া।


এই বাক্যাংশটি সম্পর্কে দ্রুত প্রায়শই জিজ্ঞাসিত প্রশ্নাবলী ❓

  • "এআই ডেটাসেট কী?" কি কেবল একটি সংজ্ঞার বিষয়? বেশিরভাগ ক্ষেত্রেই, কিন্তু এটি একটি সংকেতও যে আপনি মডেলগুলিকে নির্ভরযোগ্য করে তোলে এমন বিরক্তিকর বিটগুলির বিষয়ে যত্নশীল।

  • আমার কি সবসময় লেবেল লাগবে? না। তত্ত্বাবধানবিহীন, স্ব-তত্ত্বাবধানে থাকা, এবং আরএল সেটআপগুলি প্রায়শই স্পষ্ট লেবেল এড়িয়ে যায়, তবে কিউরেশন এখনও গুরুত্বপূর্ণ।

  • আমি কি পাবলিক ডেটা যেকোনো কিছুর জন্য ব্যবহার করতে পারি? না। লাইসেন্স, প্ল্যাটফর্মের শর্তাবলী এবং গোপনীয়তার বাধ্যবাধকতাগুলিকে সম্মান করুন [4]।

  • বড় না ভালো? আদর্শভাবে, দুটোই। যদি তোমাকে বেছে নিতেই হয়, তাহলে আগে ভালোটা বেছে নাও।


শেষ মন্তব্য - আপনি যা স্ক্রিনশট নিতে পারেন 📌

যদি কেউ আপনাকে জিজ্ঞাসা করে যে AI ডেটাসেট কী , তাহলে বলুন: এটি একটি কিউরেটেড, ডকুমেন্টেড উদাহরণের সংগ্রহ যা একটি মডেলকে শেখানো এবং পরীক্ষা করা হয়, যা পরিচালনার মাধ্যমে মোড়ানো হয় যাতে লোকেরা ফলাফলের উপর আস্থা রাখতে পারে। সেরা ডেটাসেটগুলি প্রতিনিধিত্বমূলক, ভালভাবে লেবেলযুক্ত, আইনত পরিষ্কার এবং ক্রমাগত রক্ষণাবেক্ষণ করা হয়। বাকিগুলি হল বিশদ - গুরুত্বপূর্ণ বিশদ - কাঠামো, বিভাজন এবং সেই সমস্ত ছোট ছোট রেলিং সম্পর্কে যা মডেলগুলিকে ট্র্যাফিকের মধ্যে ঘোরাফেরা করতে বাধা দেয়। কখনও কখনও প্রক্রিয়াটি স্প্রেডশিট দিয়ে বাগান করার মতো মনে হয়; কখনও কখনও পিক্সেল সংগ্রহ করার মতো। যেভাবেই হোক, ডেটাতে বিনিয়োগ করুন, এবং আপনার মডেলগুলি কম অদ্ভুত আচরণ করবে। 🌱🤖


তথ্যসূত্র

[1] ডেটাসেটের জন্য ডেটাশিট - Gebru et al., arXiv. লিঙ্ক
[2] মডেল রিপোর্টিংয়ের জন্য মডেল কার্ড - Mitchell et al., arXiv. লিঙ্ক
[3] NIST কৃত্রিম বুদ্ধিমত্তা ঝুঁকি ব্যবস্থাপনা কাঠামো (AI RMF 1.0)লিঙ্ক
[4] UK GDPR নির্দেশিকা এবং সংস্থান - তথ্য কমিশনারের অফিস (ICO)। লিঙ্ক
[5] ক্রস-ভ্যালিডেশন: অনুমানকারীর কর্মক্ষমতা মূল্যায়ন - scikit-learn ব্যবহারকারী নির্দেশিকা। লিঙ্ক


অফিসিয়াল এআই অ্যাসিস্ট্যান্ট স্টোরে সর্বশেষ এআই খুঁজুন

আমাদের সম্পর্কে

ব্লগে ফিরে যান