এআই কোথা থেকে তথ্য পায়?

এআই কোথা থেকে তথ্য পায়?

কখনও মাথা চুলকাতে বসে ভাবছেন... এই জিনিসগুলো আসলে কোথা থেকে আসছে ? মানে, AI ধুলোবালি লাইব্রেরির স্তূপের মধ্যে দিয়ে ঘুরে বেড়াচ্ছে না বা ইউটিউবের ছোট ছোট ভিডিওগুলো ধূর্ততার সাথে উপভোগ করছে না। তবুও এটি কোনওভাবে সবকিছুর উত্তর বের করে দেয় - লাসাগনা হ্যাক থেকে শুরু করে ব্ল্যাক হোল ফিজিক্স - যেন এর ভেতরে একটা অতল ফাইলিং ক্যাবিনেট আছে। বাস্তবতা আরও অদ্ভুত, এবং হয়তো আপনার ধারণার চেয়েও বেশি আকর্ষণীয়। আসুন এটি একটু খুলে ফেলি (এবং হ্যাঁ, হয়তো পথে কয়েকটি মিথ ভেঙে ফেলি)।


এটা কি জাদুবিদ্যা? 🌐

এটা জাদুবিদ্যা নয়, যদিও মাঝে মাঝে এমনটা মনে হয়। গোপনে যা ঘটছে তা মূলত প্যাটার্ন ভবিষ্যদ্বাণী তথ্য সংরক্ষণ করে না ; পরিবর্তে, তারা পরবর্তী শব্দ (টোকেন) অনুমান করার জন্য প্রশিক্ষিত হয় যা আগে এসেছে তার উপর ভিত্তি করে [2]। বাস্তবে, এর অর্থ হল তারা সম্পর্কগুলিকে আঁকড়ে ধরে: কোন শব্দগুলি একসাথে থাকে, বাক্যগুলি সাধারণত কীভাবে রূপ নেয়, কীভাবে সম্পূর্ণ ধারণাগুলি ভারা হিসাবে তৈরি হয়। এই কারণেই আউটপুটটি শোনাচ্ছে , যদিও - সম্পূর্ণ সততা - এটি পরিসংখ্যানগত অনুকরণ, বোধগম্যতা নয় [4]।

তাহলে আসলে কী কৃত্রিম বুদ্ধিমত্তা (এআই) দ্বারা তৈরি তথ্যকে কার্যকর ? কয়েকটি জিনিস:

  • তথ্য বৈচিত্র্য - একটি সংকীর্ণ ধারা থেকে নয়, অসংখ্য উৎস থেকে সংগ্রহ করা।

  • আপডেট - রিফ্রেশ চক্র ছাড়া, এটি দ্রুত পুরানো হয়ে যায়।

  • ফিল্টারিং - আদর্শভাবে আবর্জনা ঢুকে পড়ার আগেই ধরা (যদিও, আসল কথা বলি, জালে ছিদ্র আছে)।

  • ক্রস-চেকিং - কর্তৃপক্ষের উৎসের উপর নির্ভর করা (নাসা, ডাব্লুএইচও, প্রধান বিশ্ববিদ্যালয়গুলির কথা ভাবুন), যা বেশিরভাগ এআই গভর্নেন্স প্লেবুকে থাকা আবশ্যক [3]।

তবুও, মাঝে মাঝে এটা আত্মবিশ্বাসের সাথে তৈরি করে। ঐ তথাকথিত হ্যালুসিনেশনগুলো ? মূলত সোজাসুজি [2][3] দিয়ে পালিশ করা বাজে কথা।

এর পরে আপনি যে প্রবন্ধগুলি পড়তে পছন্দ করতে পারেন:

🔗 এআই কি লটারির সংখ্যা ভবিষ্যদ্বাণী করতে পারে?
এআই লটারির ভবিষ্যদ্বাণী সম্পর্কে মিথ এবং তথ্য অন্বেষণ করা।.

🔗 AI-এর প্রতি একটি সামগ্রিক দৃষ্টিভঙ্গি গ্রহণ করার অর্থ কী?
নীতিশাস্ত্র এবং প্রভাবের উপর ভারসাম্যপূর্ণ দৃষ্টিভঙ্গি সহ AI বোঝা।.

🔗 কৃত্রিম বুদ্ধিমত্তা সম্পর্কে বাইবেল কী বলে?
প্রযুক্তি এবং মানব সৃষ্টি সম্পর্কে বাইবেলের দৃষ্টিভঙ্গি পরীক্ষা করা।.


দ্রুত তুলনা: AI কোথা থেকে আসে 📊

প্রতিটি উৎস সমান নয়, তবে প্রতিটি তার ভূমিকা পালন করে। এখানে একটি স্ন্যাপশট ভিউ দেওয়া হল।.

উৎসের ধরণ কারা এটি ব্যবহার করে (এআই) খরচ/মূল্য কেন এটি কাজ করে (অথবা করে না...)
বই এবং প্রবন্ধ বৃহৎ ভাষার মডেল অমূল্য (ইশ) ঘন, সুগঠিত জ্ঞান - কেবল দ্রুত পুরানো হয়ে যায়।.
ওয়েবসাইট এবং ব্লগ প্রায় সব AI বিনামূল্যে (শব্দ সহ) বন্য জাত; উজ্জ্বলতা এবং পরম আবর্জনার মিশ্রণ।.
একাডেমিক পেপারস গবেষণা-প্রধান এআই কখনও কখনও পেওয়ালড কঠোরতা + বিশ্বাসযোগ্যতা, কিন্তু ভারী শব্দভাণ্ডারের মধ্যে সীমাবদ্ধ।.
ব্যবহারকারীর তথ্য ব্যক্তিগতকৃত এআই অত্যন্ত সংবেদনশীল ⚠️ তীক্ষ্ণ সেলাই, কিন্তু গোপনীয়তার মাথাব্যথা প্রচুর।.
রিয়েল-টাইম ওয়েব অনুসন্ধান-লিঙ্কযুক্ত AI গুলি বিনামূল্যে (অনলাইনে থাকলে) তথ্য তাজা রাখে; খারাপ দিক হল গুজব প্রচারের ঝুঁকি।.

প্রশিক্ষণ তথ্য মহাবিশ্ব 🌌

এটি "শৈশব শিক্ষা" পর্যায়। কল্পনা করুন যে আপনি একটি শিশুকে একসাথে লক্ষ লক্ষ সর্বজনীনভাবে উপলব্ধ ডেটা, লাইসেন্সপ্রাপ্ত উৎস এবং প্রশিক্ষক-উত্পাদিত পাঠ্য [2]।

উপরে স্তরে স্তরে: কিউরেটেড মানব উদাহরণ - ভালো উত্তর, খারাপ উত্তর, সঠিক দিকে ঠেলা - এমনকি শক্তিবৃদ্ধি শুরু হওয়ার আগেই [1]।.

স্বচ্ছতার সতর্কতা: কোম্পানিগুলি প্রতিটি বিবরণ প্রকাশ করে না। কিছু রেলিং গোপনীয়তা (আইপি, নিরাপত্তা সংক্রান্ত উদ্বেগ), তাই আপনি প্রকৃত মিশ্রণের একটি আংশিক জানালা পাবেন [2]।.


রিয়েল-টাইম অনুসন্ধান: অতিরিক্ত টপিং 🍒

কিছু মডেল এখন তাদের প্রশিক্ষণ বুদবুদের বাইরে উঁকি দিতে পারে। এটি হল পুনরুদ্ধার-অগমেন্টেড জেনারেশন (RAG) - মূলত একটি লাইভ সূচক বা ডক স্টোর থেকে অংশগুলি টেনে নিয়ে, তারপর এটিকে উত্তরে বুনন করে [5]। খবরের শিরোনাম বা স্টকের দামের মতো দ্রুত পরিবর্তনশীল জিনিসগুলির জন্য উপযুক্ত।

কি নোংরামি? ইন্টারনেট সমানভাবে প্রতিভাবান এবং আবর্জনার আগুন। যদি ফিল্টার বা প্রোভেন্যান্স চেক দুর্বল হয়, তাহলে জাঙ্ক ডেটা আবার লুকিয়ে ফিরে যাওয়ার ঝুঁকি থাকে - ঠিক যেমন ঝুঁকি কাঠামো সতর্ক করে [3]।.

একটি সাধারণ সমাধান: কোম্পানিগুলি তাদের নিজস্ব অভ্যন্তরীণ ডাটাবেসের সাথে মডেলগুলিকে সংযুক্ত করে, তাই উত্তরগুলিতে বর্তমান এইচআর নীতি বা আপডেট করা পণ্য ডকুমেন্টের উল্লেখ করা হয়, পরিবর্তে এটিকে উদ্ধৃত করা হয়। ভাবুন: কম "উহ-ওহ" মুহূর্ত, আরও বিশ্বাসযোগ্য উত্তর।


ফাইন-টিউনিং: এআই এর পলিশিং ধাপ 🧪

কাঁচা পূর্ব-প্রশিক্ষিত মডেলগুলি অগোছালো। তাই এগুলিকে সূক্ষ্মভাবে সাজানো :

  • সহায়ক, নিরীহ, সৎ হতে শেখানো (মানব প্রতিক্রিয়া থেকে শক্তিবৃদ্ধি শিক্ষার মাধ্যমে, RLHF) [1]।

  • অনিরাপদ বা বিষাক্ত প্রান্তগুলি বালি দিয়ে ঢেলে দেওয়া (সারিবদ্ধকরণ) [1]।.

  • সুরের সাথে সামঞ্জস্য করা - তা বন্ধুত্বপূর্ণ, আনুষ্ঠানিক, অথবা কৌতুকপূর্ণ ব্যঙ্গাত্মক হোক।.

এটা একটা হীরাকে এতটা পালিশ করা নয় বরং একটা পরিসংখ্যানগত তুষারপাতকে আরও বেশি কথোপকথনের সঙ্গীর মতো আচরণ করার জন্য ব্যবহার করা।.


বাধা এবং ব্যর্থতা 🚧

আসুন আমরা এটাকে ত্রুটিহীন বলে ভান না করি:

  • হ্যালুসিনেশন - স্পষ্ট উত্তর যা একেবারেই ভুল [2][3]।

  • পক্ষপাত - এটি ডেটাতে বেক করা প্যাটার্নগুলিকে প্রতিফলিত করে; এমনকি যদি চেক না করা হয় তবে সেগুলিকে আরও বাড়িয়ে তুলতে পারে [3][4]।

  • সরাসরি অভিজ্ঞতা নেই - এটি কথা বলতে কিন্তু কখনও স্বাদ গ্রহণ করেনি [4]।

  • অতিরিক্ত আত্মবিশ্বাস - গদ্যটি এমনভাবে প্রবাহিত হয় যেন এটি জানে, এমনকি যখন তা হয় না। ঝুঁকি কাঠামোগুলি অনুমানকে চিহ্নিত করার উপর জোর দেয় [3]।


কেন লাগছে 🧠

এর কোন বিশ্বাস নেই, মানুষের মনে কোন স্মৃতি নেই, এবং অবশ্যই কোন স্বত্বা নেই। তবুও যেহেতু এটি বাক্যগুলিকে মসৃণভাবে একত্রিত করে, তাই আপনার মস্তিষ্ক এটিকে এমনভাবে পড়ে যেন এটি বুঝতে পারে । যা ঘটছে তা কেবল বিশাল আকারের পরবর্তী-টোকেন ভবিষ্যদ্বাণী : কয়েক সেকেন্ডের মধ্যে লক্ষ লক্ষ সম্ভাব্যতা ভেঙে ফেলা [2]।

"বুদ্ধিমত্তা" ভাবটি হল উদ্ভূত আচরণ - গবেষকরা একে, কিছুটা জিভ-ইন-গাল, "স্টোকাস্টিক প্যারট" প্রভাব [4] বলে থাকেন।


শিশু-বান্ধব উপমা 🎨

কল্পনা করুন একটা তোতাপাখি লাইব্রেরির প্রতিটি বই পড়ে ফেলেছে। বুঝতে শব্দগুলোকে রিমিক্স করে এমন কিছুতে রূপান্তরিত করতে পারে যা জ্ঞানী মনে হয়। কখনও কখনও এটি নিখুঁত; কখনও কখনও এটি অর্থহীন - কিন্তু যথেষ্ট দক্ষতা থাকা সত্ত্বেও, আপনি সবসময় পার্থক্যটি বুঝতে পারবেন না।


উপসংহার: এআই-এর তথ্য কোথা থেকে আসে 📌

সোজা কথায়:

  • বিশাল প্রশিক্ষণ তথ্য (সর্বজনীন + লাইসেন্সপ্রাপ্ত + প্রশিক্ষক-উত্পাদিত) [2]।

  • স্বর/আচরণ গঠনের জন্য মানুষের প্রতিক্রিয়ার সাথে সূক্ষ্ম সমন্বয়

  • লাইভ ডেটা স্ট্রিমগুলির সাথে সংযুক্ত হলে পুনরুদ্ধার সিস্টেম

AI জিনিস "জানে" না - এটি টেক্সট ভবিষ্যদ্বাণী করে । এটি এর সুপারপাওয়ার এবং এর অ্যাকিলিসের হিল উভয়ই। মূল কথা? সর্বদা একটি বিশ্বস্ত উৎসের সাথে গুরুত্বপূর্ণ জিনিসগুলি ক্রস-চেক করুন [3]।


তথ্যসূত্র

  1. ওউয়াং, এল. এট আল. (২০২২)। মানুষের প্রতিক্রিয়া সহ নির্দেশাবলী অনুসরণ করার জন্য ভাষা মডেলগুলিকে প্রশিক্ষণ দেওয়া (InstructGPT)arXiv

  2. OpenAI (২০২৩)। GPT-4 টেকনিক্যাল রিপোর্ট - লাইসেন্সপ্রাপ্ত, পাবলিক এবং মানব-সৃষ্ট ডেটার মিশ্রণ; পরবর্তী-টোকেন ভবিষ্যদ্বাণীর উদ্দেশ্য এবং সীমাবদ্ধতা। arXiv

  3. NIST (2023)। AI ঝুঁকি ব্যবস্থাপনা কাঠামো (AI RMF 1.0) - উৎপত্তি, বিশ্বাসযোগ্যতা এবং ঝুঁকি নিয়ন্ত্রণ। PDF

  4. বেন্ডার, ইএম, গেব্রু, টি., ম্যাকমিলান-মেজর, এ., মিচেল, এস. (২০২১)। স্টোকাস্টিক প্যারটদের বিপদ সম্পর্কে: ভাষার মডেল কি খুব বড় হতে পারে? PDF

  5. লুইস, পি. এট আল. (২০২০)। জ্ঞান-নিবিড় এনএলপির জন্য পুনরুদ্ধার-বর্ধিত প্রজন্মarXiv


অফিসিয়াল এআই অ্যাসিস্ট্যান্ট স্টোরে সর্বশেষ এআই খুঁজুন

আমাদের সম্পর্কে

ব্লগে ফিরে যান