এআই কোথা থেকে তথ্য পায়?

কখনো কি মাথা চুলকাতে চুলকাতে ভেবেছেন যে... এই সব জিনিস আসলে আসছে কোথা থেকে? মানে, এআই তো আর ধুলোমাখা লাইব্রেরির বইয়ের স্তূপ ঘাঁটছে না বা গোপনে ইউটিউবের ভিডিও দেখছে না। অথচ কোনোভাবে এটি সবকিছুর উত্তর বের করে আনে—লাজানিয়া তৈরির কৌশল থেকে শুরু করে ব্ল্যাক হোলের পদার্থবিদ্যা পর্যন্ত—যেন এর ভেতরে কোনো অফুরন্ত ফাইল ক্যাবিনেট আছে। বাস্তবতাটা আপনার ধারণার চেয়েও অদ্ভুত এবং হয়তো আরও বেশি আকর্ষণীয়। চলুন, বিষয়টা একটু খতিয়ে দেখা যাক (আর হ্যাঁ, এই যাত্রাপথে হয়তো দু-একটি প্রচলিত ধারণাও ভেঙে দেওয়া যাক)।

এটা কি জাদুবিদ্যা? 🌐

এটা কোনো জাদুবিদ্যা নয়, যদিও মাঝে মাঝে সেরকমই মনে হয়। আড়ালে যা ঘটছে তা মূলত প্যাটার্ন প্রেডিকশন । বৃহৎ ভাষা মডেল (LLM) আপনার মস্তিষ্ক যেভাবে আপনার দাদির কুকির রেসিপি মনে রাখে, সেভাবে তথ্য সংরক্ষণ করে না ; বরং, আগের শব্দের উপর ভিত্তি করে পরবর্তী শব্দ (টোকেন) অনুমান করার জন্য তাদের প্রশিক্ষণ দেওয়া হয় [2]। বাস্তবে, এর মানে হলো তারা সম্পর্কগুলোকে আঁকড়ে ধরে: কোন শব্দগুলো একসাথে থাকে, বাক্যগুলো সাধারণত কীভাবে গঠিত হয়, কীভাবে একটি সম্পূর্ণ ধারণা কাঠামোর মতো তৈরি হয়। এই কারণেই আউটপুটটি সঠিক শোনায় , যদিও—পুরোপুরি সততার সাথে বলতে গেলে—এটি পরিসংখ্যানগত অনুকরণ, বোধগম্যতা নয় [4]।

তাহলে আসলে কী কৃত্রিম বুদ্ধিমত্তা (এআই) দ্বারা তৈরি তথ্যকে কার্যকর? কয়েকটি জিনিস:

তথ্য বৈচিত্র্য - একটি সংকীর্ণ ধারা থেকে নয়, অসংখ্য উৎস থেকে সংগ্রহ করা।
আপডেট - রিফ্রেশ চক্র ছাড়া, এটি দ্রুত পুরানো হয়ে যায়।
ছাঁকনি - আদর্শগতভাবে, ময়লা ভেতরে ঢোকার আগেই তা আটকে ফেলা (যদিও সত্যি বলতে, সেই জালেও ছিদ্র আছে)।
ক্রস-চেকিং - কর্তৃপক্ষের উৎসের উপর নির্ভর করা (নাসা, ডাব্লুএইচও, প্রধান বিশ্ববিদ্যালয়গুলির কথা ভাবুন), যা বেশিরভাগ এআই গভর্নেন্স প্লেবুকে থাকা আবশ্যক [3]।

তবুও, মাঝে মাঝে এটা আত্মবিশ্বাসের সাথে তৈরি করে। ঐ তথাকথিত হ্যালুসিনেশনগুলো? মূলত সোজাসুজি [2][3] দিয়ে পালিশ করা বাজে কথা।

এর পরে আপনি যে প্রবন্ধগুলি পড়তে পছন্দ করতে পারেন:

🔗 এআই কি লটারির সংখ্যা ভবিষ্যদ্বাণী করতে পারে?
এআই লটারির ভবিষ্যদ্বাণী সম্পর্কে মিথ এবং তথ্য অন্বেষণ করা।.

🔗 AI-এর প্রতি একটি সামগ্রিক দৃষ্টিভঙ্গি গ্রহণ করার অর্থ কী?
নীতিশাস্ত্র এবং প্রভাবের উপর ভারসাম্যপূর্ণ দৃষ্টিভঙ্গি সহ AI বোঝা।.

🔗 কৃত্রিম বুদ্ধিমত্তা সম্পর্কে বাইবেল কী বলে?
প্রযুক্তি এবং মানব সৃষ্টি সম্পর্কে বাইবেলের দৃষ্টিভঙ্গি পরীক্ষা করা।.

দ্রুত তুলনা: AI কোথা থেকে আসে 📊

প্রতিটি উৎস সমান নয়, তবে প্রতিটি তার ভূমিকা পালন করে। এখানে একটি স্ন্যাপশট ভিউ দেওয়া হল।.

উৎসের ধরণ	কারা এটি ব্যবহার করে (এআই)	খরচ/মূল্য	কেন এটি কাজ করে (অথবা করে না...)
বই এবং প্রবন্ধ	বৃহৎ ভাষার মডেল	অমূল্য (ইশ)	ঘন, সুগঠিত জ্ঞান - কেবল দ্রুত পুরানো হয়ে যায়।.
ওয়েবসাইট এবং ব্লগ	প্রায় সব AI	বিনামূল্যে (শব্দ সহ)	বন্য জাত; উজ্জ্বলতা এবং পরম আবর্জনার মিশ্রণ।.
একাডেমিক পেপারস	গবেষণা-প্রধান এআই	কখনও কখনও পেওয়ালড	কঠোরতা + বিশ্বাসযোগ্যতা, কিন্তু ভারী শব্দভাণ্ডারের মধ্যে সীমাবদ্ধ।.
ব্যবহারকারীর তথ্য	ব্যক্তিগতকৃত এআই	অত্যন্ত সংবেদনশীল ⚠️	তীক্ষ্ণ সেলাই, কিন্তু গোপনীয়তার মাথাব্যথা প্রচুর।.
রিয়েল-টাইম ওয়েব	অনুসন্ধান-লিঙ্কযুক্ত AI গুলি	বিনামূল্যে (অনলাইনে থাকলে)	তথ্য তাজা রাখে; খারাপ দিক হল গুজব প্রচারের ঝুঁকি।.

প্রশিক্ষণ তথ্য মহাবিশ্ব 🌌

এটি হল "শৈশবের শেখার" পর্যায়। কল্পনা করুন, একটি শিশুকে একবারে লক্ষ লক্ষ গল্পের বই, সংবাদপত্রের কাটিং এবং উইকিপিডিয়ার গভীর তথ্য দেওয়া হচ্ছে। প্রাক-প্রশিক্ষণ দেখতে এমনই। বাস্তব জগতে, পরিষেবা প্রদানকারীরা সর্বজনীনভাবে উপলব্ধ ডেটা, লাইসেন্সপ্রাপ্ত উৎস এবং প্রশিক্ষক-তৈরি পাঠ্য [2] একত্রিত করে।

উপরে স্তরে স্তরে: কিউরেটেড মানব উদাহরণ - ভালো উত্তর, খারাপ উত্তর, সঠিক দিকে ঠেলা - এমনকি শক্তিবৃদ্ধি শুরু হওয়ার আগেই [1]।.

স্বচ্ছতার সতর্কতা: কোম্পানিগুলি প্রতিটি বিবরণ প্রকাশ করে না। কিছু রেলিং গোপনীয়তা (আইপি, নিরাপত্তা সংক্রান্ত উদ্বেগ), তাই আপনি প্রকৃত মিশ্রণের একটি আংশিক জানালা পাবেন [2]।.

রিয়েল-টাইম অনুসন্ধান: অতিরিক্ত টপিং 🍒

কিছু মডেল এখন তাদের প্রশিক্ষণের গণ্ডির বাইরেও দেখতে পারে। এটাই হলো রিট্রিভাল-অগমেন্টেড জেনারেশন (RAG) -মূলত একটি লাইভ ইনডেক্স বা ডক স্টোর থেকে খণ্ডাংশ টেনে এনে, তারপর সেগুলোকে উত্তরে অন্তর্ভুক্ত করা [5]। খবরের শিরোনাম বা শেয়ারের দামের মতো দ্রুত পরিবর্তনশীল জিনিসের জন্য এটি নিখুঁত।

কি নোংরামি? ইন্টারনেট সমানভাবে প্রতিভাবান এবং আবর্জনার আগুন। যদি ফিল্টার বা প্রোভেন্যান্স চেক দুর্বল হয়, তাহলে জাঙ্ক ডেটা আবার লুকিয়ে ফিরে যাওয়ার ঝুঁকি থাকে - ঠিক যেমন ঝুঁকি কাঠামো সতর্ক করে [3]।.

এর একটি প্রচলিত সমাধান হলো: কোম্পানিগুলো তাদের মডেলগুলোকে নিজেদের অভ্যন্তরীণ ডেটাবেসের সাথে সংযুক্ত করে, ফলে উত্তরগুলো আন্দাজে দেওয়ার পরিবর্তে বর্তমান এইচআর নীতি বা হালনাগাদ করা পণ্যের ডকুমেন্টেশনের উল্লেখ করে দেওয়া হয়। এর ফলে অপ্রত্যাশিত ভুলের সম্ভাবনা কমে এবং উত্তরগুলো আরও বিশ্বাসযোগ্য হয়।

ফাইন-টিউনিং: এআই এর পলিশিং ধাপ 🧪

কাঁচা পূর্ব-প্রশিক্ষিত মডেলগুলি অগোছালো। তাই এগুলিকে সূক্ষ্মভাবে সাজানো:

তাদেরকে সহায়ক, নিরীহ, সৎ হতে শেখানো (মানব প্রতিক্রিয়া থেকে শক্তিবৃদ্ধি শিক্ষার মাধ্যমে, RLHF) [1]।
অনিরাপদ বা বিষাক্ত প্রান্তগুলি বালি দিয়ে ঢেলে দেওয়া (সারিবদ্ধকরণ) [1]।.
সুরের সাথে সামঞ্জস্য করা - তা বন্ধুত্বপূর্ণ, আনুষ্ঠানিক, অথবা কৌতুকপূর্ণ ব্যঙ্গাত্মক হোক।.

এটা একটা হীরাকে এতটা পালিশ করা নয় বরং একটা পরিসংখ্যানগত তুষারপাতকে আরও বেশি কথোপকথনের সঙ্গীর মতো আচরণ করার জন্য ব্যবহার করা।.

বাধা এবং ব্যর্থতা 🚧

আসুন আমরা এটাকে ত্রুটিহীন বলে ভান না করি:

হ্যালুসিনেশন - স্পষ্ট উত্তর যা একেবারেই ভুল [2][3]।
পক্ষপাত - এটি ডেটাতে বেক করা প্যাটার্নগুলিকে প্রতিফলিত করে; এমনকি যদি চেক না করা হয় তবে সেগুলিকে আরও বাড়িয়ে তুলতে পারে [3][4]।
সরাসরি অভিজ্ঞতা নেই - এটি কথা বলতে কিন্তু কখনও স্বাদ গ্রহণ করেনি [4]।
অতিরিক্ত আত্মবিশ্বাস - গদ্য এমনভাবে প্রবাহিত হয় যেন সে সব জানে, যদিও সে জানে না। ঝুঁকি কাঠামো অনুমান চিহ্নিত করার উপর জোর দেয় [3]।

জানার অনুভূতি কেন 🧠

এর কোনো বিশ্বাস নেই, মানুষের মতো কোনো স্মৃতি নেই, এবং অবশ্যই কোনো সত্তা নেই। তবুও যেহেতু এটি সাবলীলভাবে বাক্য গঠন করে, আপনার মস্তিষ্ক এটিকে এমনভাবে পড়ে যেন এটি বুঝতে পারে। যা ঘটছে তা হল ব্যাপক-মাপের পরবর্তী-টোকেন পূর্বাভাস: সেকেন্ডের ভগ্নাংশে ট্রিলিয়ন ট্রিলিয়ন সম্ভাবনা বিশ্লেষণ করা [2]।

"বুদ্ধিমত্তা" ভাবটি একটি উদ্ভূত আচরণ - গবেষকরা এটিকে কিছুটা ঠাট্টার ছলে "স্টোকাস্টিক প্যারট" প্রভাব [4] বলে থাকেন।

শিশু-বান্ধব উপমা 🎨

এমন একটি তোতাপাখির কথা ভাবুন যে লাইব্রেরির সব বই পড়ে ফেলেছে। সে বোঝে , কিন্তু শব্দগুলোকে নতুন করে সাজিয়ে এমন কিছু তৈরি করতে পারে যা শুনতে জ্ঞানগর্ভ মনে হয়। কখনও কখনও তা হয় একেবারে সঠিক; কখনও বা অর্থহীন—কিন্তু যথেষ্ট দক্ষতার সাথে করলে, পার্থক্যটা সবসময় বোঝা যায় না।

উপসংহার: এআই-এর তথ্য কোথা থেকে আসে 📌

সোজা কথায়:

বিশাল প্রশিক্ষণ তথ্য (সর্বজনীন + লাইসেন্সপ্রাপ্ত + প্রশিক্ষক-উত্পাদিত) [2]।
স্বর/আচরণ গঠনের জন্য মানুষের প্রতিক্রিয়ার সাথে সূক্ষ্ম সমন্বয় [1]।
লাইভ ডেটা স্ট্রিমগুলির সাথে সংযুক্ত হলে পুনরুদ্ধার সিস্টেম [5]।

AI কোনো কিছু "জানে" না - এটি টেক্সট অনুমান করে। এটাই এর সুপারপাওয়ার এবং অ্যাকিলিসের দুর্বলতা দুটোই। মূল কথা? গুরুত্বপূর্ণ বিষয়গুলো সবসময় একটি বিশ্বস্ত উৎসের সাথে মিলিয়ে নিন [3]।

তথ্যসূত্র

ওউয়াং, এল. এট আল. (২০২২)। মানুষের প্রতিক্রিয়া সহ নির্দেশাবলী অনুসরণ করার জন্য ভাষা মডেলগুলিকে প্রশিক্ষণ দেওয়া (InstructGPT)। arXiv।
OpenAI (২০২৩)। GPT-4 টেকনিক্যাল রিপোর্ট - লাইসেন্সপ্রাপ্ত, পাবলিক এবং মানব-সৃষ্ট ডেটার মিশ্রণ; পরবর্তী-টোকেন ভবিষ্যদ্বাণীর উদ্দেশ্য এবং সীমাবদ্ধতা। arXiv।
NIST (2023)। AI ঝুঁকি ব্যবস্থাপনা কাঠামো (AI RMF 1.0) - উৎপত্তি, বিশ্বাসযোগ্যতা এবং ঝুঁকি নিয়ন্ত্রণ। PDF।
বেন্ডার, ইএম, গেব্রু, টি., ম্যাকমিলান-মেজর, এ., মিচেল, এস. (২০২১)। স্টোকাস্টিক প্যারটের বিপদ প্রসঙ্গে: ভাষা মডেল কি অতিরিক্ত বড় হতে পারে? পিডিএফ।
লুইস, পি. এট আল. (২০২০)। জ্ঞান-নিবিড় এনএলপির জন্য পুনরুদ্ধার-বর্ধিত প্রজন্ম। arXiv।

অফিসিয়াল এআই অ্যাসিস্ট্যান্ট স্টোরে সর্বশেষ এআই খুঁজুন

আমাদের সম্পর্কে

ব্লগে ফিরে যান