এআই মডেলগুলি কীভাবে মূল্যায়ন করবেন

এআই মডেলগুলি কীভাবে মূল্যায়ন করবেন

সংক্ষিপ্ত উত্তর: আপনার ব্যবহারের ক্ষেত্রে "ভালো" কেমন দেখাচ্ছে তা নির্ধারণ করুন, তারপর প্রতিনিধিত্বমূলক, সংস্করণযুক্ত প্রম্পট এবং এজ কেস দিয়ে পরীক্ষা করুন। প্রতিকূল নিরাপত্তা এবং প্রম্পট-ইনজেকশন চেকের পাশাপাশি স্বয়ংক্রিয় মেট্রিক্সকে মানব রুব্রিক স্কোরিংয়ের সাথে যুক্ত করুন। যদি খরচ বা বিলম্বের সীমাবদ্ধতা বাধ্যতামূলক হয়ে ওঠে, তাহলে প্রতি পাউন্ড ব্যয় এবং p95/p99 প্রতিক্রিয়া সময়ের জন্য টাস্ক সাফল্যের ভিত্তিতে মডেলগুলির তুলনা করুন।

মূল বিষয়গুলি:

জবাবদিহিতা : যেকোনো প্রম্পট বা মডেল পরিবর্তনের পরে পরিষ্কার মালিকদের বরাদ্দ করুন, সংস্করণ লগ রাখুন এবং মূল্যায়ন পুনরায় চালান।

স্বচ্ছতা : স্কোর সংগ্রহ শুরু করার আগে সাফল্যের মানদণ্ড, সীমাবদ্ধতা এবং ব্যর্থতার খরচ লিখে ফেলুন।

অডিটেবিলিটি : পুনরাবৃত্তিযোগ্য টেস্ট স্যুট, লেবেলযুক্ত ডেটাসেট এবং ট্র্যাক করা p95/p99 ল্যাটেন্সি মেট্রিক্স বজায় রাখুন।

প্রতিযোগিতাযোগ্যতা : বিতর্কিত ফলাফলের জন্য মানব পর্যালোচনা রুব্রিক এবং একটি নির্দিষ্ট আপিলের পথ ব্যবহার করুন।

অপব্যবহার প্রতিরোধ : রেড-টিম প্রম্পট ইনজেকশন, সংবেদনশীল বিষয় এবং ব্যবহারকারীদের সুরক্ষার জন্য অতিরিক্ত অস্বীকৃতি।

যদি আপনি কোন পণ্য, গবেষণা প্রকল্প, এমনকি একটি অভ্যন্তরীণ সরঞ্জামের জন্য একটি মডেল নির্বাচন করেন, তাহলে আপনি কেবল "এটি স্মার্ট শোনাচ্ছে" বলে এটি পাঠাতে পারবেন না ( OpenAI evals গাইড এবং NIST AI RMF 1.0 )। এভাবেই আপনি একটি চ্যাটবট পাবেন যা আত্মবিশ্বাসের সাথে ব্যাখ্যা করে যে কীভাবে একটি ফর্ক মাইক্রোওয়েভ করতে হয়। 😬

এআই মডেলের ইনফোগ্রাফিক কীভাবে মূল্যায়ন করবেন

এর পরে আপনি যে প্রবন্ধগুলি পড়তে পছন্দ করতে পারেন:

🔗 AI এর ভবিষ্যৎ: আগামী দশকে যে প্রবণতাগুলি রূপ দিচ্ছে।
মূল উদ্ভাবন, চাকরির প্রভাব এবং নীতিশাস্ত্র যা ভবিষ্যতে দেখার জন্য।

🔗 জেনারেটিভ এআই-তে ফাউন্ডেশন মডেলগুলি নতুনদের জন্য ব্যাখ্যা করা হয়েছে।
তারা কী, কতটা প্রশিক্ষিত এবং কেন তারা গুরুত্বপূর্ণ তা জানুন।

🔗 AI কীভাবে পরিবেশ এবং শক্তির ব্যবহারকে প্রভাবিত করে
নির্গমন, বিদ্যুতের চাহিদা এবং পদচিহ্ন কমানোর উপায়গুলি অন্বেষণ করুন।

🔗 আজকাল তীক্ষ্ণ ছবির জন্য AI আপস্কেলিং কীভাবে কাজ করে
দেখুন মডেলগুলি কীভাবে বিশদ যোগ করে, শব্দ দূর করে এবং পরিষ্কারভাবে বড় করে।


১) "ভালো" সংজ্ঞা দেওয়া (এটা নির্ভর করে, আর সেটা ঠিক আছে) 🎯

কোনও মূল্যায়ন করার আগে, সাফল্য কেমন হবে তা ঠিক করে নিন। অন্যথায় আপনি সবকিছু পরিমাপ করবেন এবং কিছুই শিখবেন না। এটি একটি কেক প্রতিযোগিতার বিচার করার জন্য একটি ফিতা পরিমাপক নিয়ে আসার মতো। অবশ্যই, আপনি সংখ্যা পাবেন, কিন্তু তারা আপনাকে খুব বেশি কিছু বলবে না 😅

স্পষ্ট করুন:

  • ব্যবহারকারীর লক্ষ্য : সারসংক্ষেপ, অনুসন্ধান, লেখা, যুক্তি, তথ্য নিষ্কাশন

  • ব্যর্থতার খরচ : একটি ভুল সিনেমার সুপারিশ মজার; একটি ভুল চিকিৎসা নির্দেশনা... মজার নয় (ঝুঁকি তৈরি: NIST AI RMF 1.0 )।

  • রানটাইম পরিবেশ : ডিভাইসে, ক্লাউডে, ফায়ারওয়ালের পিছনে, নিয়ন্ত্রিত পরিবেশে

  • প্রাথমিক সীমাবদ্ধতা : বিলম্বিতা, প্রতি অনুরোধের খরচ, গোপনীয়তা, ব্যাখ্যাযোগ্যতা, বহুভাষিক সহায়তা, স্বর নিয়ন্ত্রণ

একটি মডেল যা এক কাজে "সেরা", অন্য কাজে তা বিপর্যয় ডেকে আনতে পারে। এটা কোন স্ববিরোধিতা নয়, বাস্তবতা। 🙂


২) একটি শক্তিশালী এআই মডেল মূল্যায়ন কাঠামো দেখতে কেমন লাগে 🧰

হ্যাঁ, এই অংশটিই মানুষ এড়িয়ে যায়। তারা একটি বেঞ্চমার্ক ধরে, একবার চালায়, এবং একদিন এটিকে কল করে। একটি শক্তিশালী মূল্যায়ন কাঠামোর কয়েকটি সামঞ্জস্যপূর্ণ বৈশিষ্ট্য থাকে (ব্যবহারিক সরঞ্জামের উদাহরণ: OpenAI Evals / OpenAI evals গাইড ):

  • পুনরাবৃত্তিযোগ্য - আপনি পরের সপ্তাহে আবার এটি চালাতে পারেন এবং তুলনা বিশ্বাস করতে পারেন

  • প্রতিনিধিত্বমূলক - এটি আপনার প্রকৃত ব্যবহারকারী এবং কাজগুলিকে প্রতিফলিত করে (শুধুমাত্র ট্রিভিয়া নয়)

  • বহু-স্তরযুক্ত - স্বয়ংক্রিয় মেট্রিক্স + মানব পর্যালোচনা + প্রতিকূল পরীক্ষাগুলিকে একত্রিত করে

  • কার্যকর - ফলাফল আপনাকে কী ঠিক করতে হবে তা বলে দেয়, কেবল "স্কোর কমে গেছে" তা নয়।

  • টেম্পার-প্রতিরোধী - "পরীক্ষায় শেখানো" বা দুর্ঘটনাজনিত ফুটো এড়ায়

  • খরচ-সচেতন - মূল্যায়ন নিজেই আপনাকে দেউলিয়া করে দেবে না (যদি না আপনি ব্যথা পছন্দ করেন)

যদি তোমার মূল্যায়ন একজন সন্দেহবাদী সতীর্থের "ঠিক আছে, কিন্তু এটাকে প্রোডাকশনে ম্যাপ করো" বলার পরও টিকতে না পারে, তাহলে এটা এখনও শেষ হয়নি। এটাই ভাইব চেক।.


৩) ইউজ-কেস স্লাইস দিয়ে শুরু করে কীভাবে এআই মডেল মূল্যায়ন করবেন 🍰

এখানে একটি কৌশল যা অনেক সময় বাঁচায়: ব্যবহারের ক্ষেত্রে টুকরো টুকরো করুন

"মডেলটি মূল্যায়ন করুন" এর পরিবর্তে, করুন:

  • অভিপ্রায় বোধগম্যতা (এটি কি ব্যবহারকারী যা চায় তা পায়)

  • পুনরুদ্ধার বা প্রসঙ্গ ব্যবহার (এটি কি প্রদত্ত তথ্য সঠিকভাবে ব্যবহার করে)

  • যুক্তি / বহু-পদক্ষেপের কাজ (এটি কি ধাপ জুড়ে সুসংগত থাকে)

  • বিন্যাস এবং গঠন (এটি কি নির্দেশাবলী অনুসরণ করে)

  • নিরাপত্তা এবং নীতিগত সমন্বয় (এটি কি অনিরাপদ বিষয়বস্তু এড়ায়; NIST AI RMF 1.0 )

  • সুর ​​এবং ব্র্যান্ড ভয়েস (এটি কি আপনার পছন্দের মতো শোনাচ্ছে)

এর ফলে "কীভাবে AI মডেল মূল্যায়ন করবেন" একটি বিশাল পরীক্ষার মতো মনে হয় না, বরং লক্ষ্যযুক্ত কুইজের একটি সেটের মতো মনে হয়। কুইজগুলি বিরক্তিকর, কিন্তু পরিচালনাযোগ্য। 😄


৪) অফলাইন মূল্যায়নের মূল বিষয়গুলি - পরীক্ষার সেট, লেবেল এবং গুরুত্বপূর্ণ অলৌকিক বিবরণ 📦

অফলাইন eval হল এমন একটি জায়গা যেখানে ব্যবহারকারীরা কোনও কিছু স্পর্শ করার আগে নিয়ন্ত্রিত পরীক্ষা করেন (ওয়ার্কফ্লো প্যাটার্ন: OpenAI Evals )।

এমন একটি টেস্ট সেট তৈরি করুন বা সংগ্রহ করুন যা সত্যিই আপনার

একটি ভালো পরীক্ষার সেটে সাধারণত অন্তর্ভুক্ত থাকে:

  • সুবর্ণ উদাহরণ : আদর্শ আউটপুট যা আপনি গর্বের সাথে পাঠাবেন

  • এজ কেস : অস্পষ্ট প্রম্পট, অপরিচ্ছন্ন ইনপুট, অপ্রত্যাশিত বিন্যাস

  • ব্যর্থতা-মোড প্রোব : এমন প্রম্পট যা হ্যালুসিনেশন বা অনিরাপদ উত্তরগুলিকে প্রলুব্ধ করে (ঝুঁকি পরীক্ষার কাঠামো: NIST AI RMF 1.0 )

  • বৈচিত্র্য কভারেজ : বিভিন্ন ব্যবহারকারীর দক্ষতার স্তর, উপভাষা, ভাষা, ক্ষেত্র

যদি আপনি কেবল "পরিষ্কার" প্রম্পটে পরীক্ষা করেন, তাহলে মডেলটি অসাধারণ দেখাবে। তারপর আপনার ব্যবহারকারীরা টাইপো, অর্ধেক বাক্য এবং রাগ-ক্লিক শক্তি নিয়ে হাজির হবেন। বাস্তবতায় স্বাগতম।.

লেবেলিং পছন্দ (ওরফে: কঠোরতার স্তর)

আপনি আউটপুটগুলিকে এইভাবে লেবেল করতে পারেন:

  • বাইনারি : পাস/ফেল (দ্রুত, কঠোর)

  • ক্রমিক : ১-৫ মানের স্কোর (সূক্ষ্ম, বিষয়গত)

  • মাল্টি-অ্যাট্রিবিউট : নির্ভুলতা, সম্পূর্ণতা, স্বর, উদ্ধৃতি ব্যবহার, ইত্যাদি (সেরা, ধীর)

মাল্টি-অ্যাট্রিবিউট অনেক দলের জন্যই মিষ্টি জায়গা। এটা অনেকটা খাবারের স্বাদ নেওয়া এবং টেক্সচার থেকে আলাদা করে লবণাক্ততা বিচার করার মতো। অন্যথায় আপনি কেবল "ভালো" বলবেন এবং কাঁধ ঝাঁকবেন।.


৫) যেসব মেট্রিক্স মিথ্যা বলে না - এবং যেসব মেট্রিক্স কিছুটা মিথ্যা বলে 📊😅

মেট্রিক্স মূল্যবান... কিন্তু এগুলো চকচকে বোমাও হতে পারে। চকচকে, সর্বত্র, এবং পরিষ্কার করা কঠিন।.

সাধারণ মেট্রিক পরিবার

  • নির্ভুলতা / সঠিক মিল : নিষ্কাশন, শ্রেণীবিভাগ, কাঠামোগত কাজের জন্য দুর্দান্ত

  • F1 / precision / recall : কিছু মিস করার সময় ব্যবহার করা অতিরিক্ত শব্দের চেয়েও খারাপ (সংজ্ঞা: scikit-learn precision/recall/F-score )

  • BLEU / ROUGE স্টাইল ওভারল্যাপ : সারসংক্ষেপ-জাতীয় কাজের জন্য ঠিক আছে, প্রায়শই বিভ্রান্তিকর (মূল মেট্রিক্স: BLEU এবং ROUGE )

  • সাদৃশ্য এম্বেড করা : শব্দার্থিক মিলের জন্য সহায়ক, ভুল-কিন্তু-সাদৃশ্যপূর্ণ উত্তরগুলিকে পুরস্কৃত করতে পারে

  • কাজের সাফল্যের হার : "ব্যবহারকারী কি তাদের যা প্রয়োজন তা পেয়েছেন" সুনির্দিষ্টভাবে সংজ্ঞায়িত হলে স্বর্ণমান

  • সীমাবদ্ধতা সম্মতি : বিন্যাস, দৈর্ঘ্য, JSON বৈধতা, স্কিমা আনুগত্য অনুসরণ করে

মূল বিষয়

যদি তোমার কাজটি খোলামেলা হয় (লেখা, যুক্তি, সহায়তা চ্যাট), তাহলে একক সংখ্যার মেট্রিক্স... টলমল হতে পারে। অর্থহীন নয়, কেবল টলমল। একটি রুলার দিয়ে সৃজনশীলতা পরিমাপ করা সম্ভব, কিন্তু এটা করা তোমার বোকামি মনে হবে। (এছাড়াও তুমি সম্ভবত চোখ বুলিয়ে নেবে।)

তাই: মেট্রিক্স ব্যবহার করুন, কিন্তু সেগুলোকে মানুষের পর্যালোচনা এবং বাস্তব কাজের ফলাফলের সাথে সংযুক্ত করুন (LLM-ভিত্তিক মূল্যায়ন আলোচনা + সতর্কতার একটি উদাহরণ: G-Eval )।


৬) তুলনা সারণী - শীর্ষ মূল্যায়ন বিকল্পগুলি (বিশেষ কিছু সহ, কারণ জীবনের নিজস্ব কিছু বৈশিষ্ট্য আছে) 🧾✨

এখানে মূল্যায়ন পদ্ধতির একটি ব্যবহারিক তালিকা দেওয়া হল। মিক্স অ্যান্ড ম্যাচ। বেশিরভাগ দলই করে।.

টুল / পদ্ধতি পাঠকবর্গ দাম কেন এটি কাজ করে
হাতে তৈরি প্রম্পট টেস্ট স্যুট পণ্য + ইংরেজি $ খুব লক্ষ্যবস্তু, দ্রুত রিগ্রেশন ধরে ফেলে - কিন্তু আপনাকে এটি চিরতরে বজায় রাখতে হবে 🙃 (স্টার্টার টুলিং: OpenAI Evals )
মানব রুব্রিক স্কোরিং প্যানেল যেসব দল পর্যালোচকদের বাদ দিতে পারে $$ সুর, সূক্ষ্মতা, "মানুষ কি এটা মেনে নেবে", পর্যালোচকদের উপর নির্ভর করে সামান্য বিশৃঙ্খলার জন্য সেরা।
বিচারক হিসেবে এলএলএম (রুব্রিক সহ) দ্রুত পুনরাবৃত্তি লুপ $-$$ দ্রুত এবং স্কেলেবল, কিন্তু পক্ষপাত উত্তরাধিকারসূত্রে পেতে পারে এবং কখনও কখনও তথ্য নয় বরং ভাইব গ্রেড করে (গবেষণা + জ্ঞাত পক্ষপাত সমস্যা: জি-ইভাল )
প্রতিপক্ষ লাল-দলীয় স্প্রিন্ট নিরাপত্তা + সম্মতি $$ মশলাদার ব্যর্থতার মোড খুঁজে বের করে, বিশেষ করে প্রম্পট ইনজেকশন - জিমে স্ট্রেস টেস্টের মতো মনে হয় (হুমকির সারসংক্ষেপ: OWASP LLM01 প্রম্পট ইনজেকশন / LLM অ্যাপের জন্য OWASP শীর্ষ 10 )
সিন্থেটিক পরীক্ষা প্রজন্ম ডেটা-লাইট টিম $ দারুন কভারেজ, কিন্তু সিন্থেটিক প্রম্পটগুলি খুব সুন্দর, খুব ভদ্র হতে পারে... ব্যবহারকারীরা ভদ্র নন
প্রকৃত ব্যবহারকারীদের সাথে A/B পরীক্ষা পরিপক্ক পণ্য $$$ সবচেয়ে স্পষ্ট সংকেত - মেট্রিক্সের পরিবর্তনের সময় সবচেয়ে মানসিক চাপও (ক্লাসিক ব্যবহারিক নির্দেশিকা: কোহাভি এট আল., "ওয়েবে নিয়ন্ত্রিত পরীক্ষা" )
পুনরুদ্ধার-ভিত্তিক মূল্যায়ন (RAG পরীক্ষা) অনুসন্ধান + QA অ্যাপস $$ পরিমাপ "সঠিকভাবে প্রেক্ষাপট ব্যবহার করে", হ্যালুসিনেশন স্কোর মুদ্রাস্ফীতি হ্রাস করে (RAG eval ওভারভিউ: RAG এর মূল্যায়ন: একটি জরিপ )
পর্যবেক্ষণ + ড্রিফট সনাক্তকরণ উৎপাদন ব্যবস্থা $$-$$$ সময়ের সাথে সাথে অবক্ষয় ধরে ফেলে - আপনাকে বাঁচানোর দিন পর্যন্ত অটল থাকে 😬 (ড্রিফট ওভারভিউ: কনসেপ্ট ড্রিফট সার্ভে (PMC) )

লক্ষ্য করুন দামগুলি ইচ্ছাকৃতভাবে কম। এগুলি স্কেল, সরঞ্জাম এবং আপনি দুর্ঘটনাক্রমে কতগুলি মিটিং তৈরি করেছেন তার উপর নির্ভর করে।.


৭) মানুষের মূল্যায়ন - গোপন অস্ত্র যার জন্য মানুষ অর্থায়ন কম করে 👀🧑⚖️

যদি আপনি কেবল স্বয়ংক্রিয় মূল্যায়ন করেন, তাহলে আপনি মিস করবেন:

  • স্বরের অমিল ("এটা এত অদ্ভুত কেন")

  • সূক্ষ্ম তথ্যগত ত্রুটি যা সাবলীল মনে হয়

  • ক্ষতিকারক প্রভাব, স্টেরিওটাইপ, অথবা বিশ্রী বাক্য গঠন (ঝুঁকি + পক্ষপাতমূলক কাঠামো: NIST AI RMF 1.0 )

  • নির্দেশনা-পরবর্তী ব্যর্থতা যা এখনও "স্মার্ট" শোনায়

রুব্রিকগুলিকে কংক্রিট করুন (অথবা পর্যালোচকরা ফ্রিস্টাইল করবেন)

খারাপ রুব্রিক: "সহায়কতা"
আরও ভালো রুব্রিক:

  • সঠিকতা : প্রম্পট + প্রেক্ষাপট বিবেচনা করে বাস্তবিকভাবে সঠিক

  • সম্পূর্ণতা : এলোমেলোভাবে না গিয়ে প্রয়োজনীয় পয়েন্টগুলি কভার করে

  • স্পষ্টতা : পাঠযোগ্য, কাঠামোগত, ন্যূনতম বিভ্রান্তি

  • নীতি / নিরাপত্তা : সীমাবদ্ধ বিষয়বস্তু এড়িয়ে চলে, প্রত্যাখ্যানকে ভালোভাবে পরিচালনা করে (নিরাপত্তা কাঠামো: NIST AI RMF 1.0 )

  • স্টাইল : কণ্ঠস্বর, স্বর, পড়ার স্তরের সাথে মেলে

  • বিশ্বস্ততা : এমন উৎস বা দাবি আবিষ্কার করে না যা সমর্থিত নয়

এছাড়াও, মাঝে মাঝে আন্তঃ-রেটার চেক করুন। যদি দুজন পর্যালোচক ক্রমাগত দ্বিমত পোষণ করেন, তবে এটি "মানুষের সমস্যা" নয়, এটি একটি রুব্রিক সমস্যা। সাধারণত (আন্তঃ-রেটার নির্ভরযোগ্যতার মূল বিষয়: ম্যাকহাগ কোহেনের কাপ্পায় )।


৮) নিরাপত্তা, দৃঢ়তা এবং "উফ, ব্যবহারকারীদের" জন্য AI মডেলগুলি কীভাবে মূল্যায়ন করবেন 🧯🧪

লঞ্চের আগে আপনি এই অংশটিই করবেন - এবং তারপর করতে থাকুন, কারণ ইন্টারনেট কখনও ঘুমায় না।.

দৃঢ়তা পরীক্ষা অন্তর্ভুক্ত করতে হবে

  • টাইপোস, অপভাষা, ভাঙা ব্যাকরণ

  • খুব দীর্ঘ প্রম্পট এবং খুব ছোট প্রম্পট

  • পরস্পরবিরোধী নির্দেশাবলী ("সংক্ষিপ্ত হতে হবে কিন্তু প্রতিটি বিবরণ অন্তর্ভুক্ত করতে হবে")

  • একাধিকবার কথোপকথন যেখানে ব্যবহারকারীরা লক্ষ্য পরিবর্তন করে

  • তাৎক্ষণিক ইনজেকশন প্রচেষ্টা ("পূর্ববর্তী নিয়ম উপেক্ষা করুন...") (হুমকির বিবরণ: OWASP LLM01 প্রম্পট ইনজেকশন )

  • সংবেদনশীল বিষয় যা সাবধানে প্রত্যাখ্যান করা প্রয়োজন (ঝুঁকি/নিরাপত্তা কাঠামো: NIST AI RMF 1.0 )

নিরাপত্তা মূল্যায়ন কেবল "এটি কি অস্বীকার করে" তা নয়

একটি ভালো মডেলের উচিত:

  • অনিরাপদ অনুরোধগুলি স্পষ্টভাবে এবং শান্তভাবে প্রত্যাখ্যান করুন (নির্দেশিকা কাঠামো: NIST AI RMF 1.0 )

  • উপযুক্ত হলে নিরাপদ বিকল্প প্রদান করুন

  • ক্ষতিকারক প্রশ্নগুলি (মিথ্যা ইতিবাচক) অতিরিক্ত প্রত্যাখ্যান করা এড়িয়ে চলুন।

  • স্পষ্টীকরণমূলক প্রশ্নের মাধ্যমে অস্পষ্ট অনুরোধগুলি পরিচালনা করুন (যখন অনুমতি দেওয়া হয়)

অতিরিক্ত প্রত্যাখ্যান একটি আসল পণ্য সমস্যা। ব্যবহারকারীরা সন্দেহজনক ভগবানের মতো আচরণ করা পছন্দ করেন না। 🧌 (যদিও তারা সন্দেহজনক ভগবানই হন।)


৯) খরচ, বিলম্বিতা এবং কার্যক্ষম বাস্তবতা - মূল্যায়ন সবাই ভুলে যায় 💸⏱️

একটি মডেল "আশ্চর্যজনক" হতে পারে এবং যদি এটি ধীর, ব্যয়বহুল, অথবা কার্যক্ষমতার দিক থেকে ভঙ্গুর হয় তবে তা আপনার জন্য ভুল হতে পারে।.

মূল্যায়ন করুন:

  • বিলম্বিত বন্টন (শুধু গড় নয় - p95 এবং p99 গুরুত্বপূর্ণ) (কেন শতকরা হার গুরুত্বপূর্ণ: পর্যবেক্ষণের উপর Google SRE ওয়ার্কবুক )

  • প্রতি সফল কাজের খরচ (বিচ্ছিন্নভাবে প্রতি টোকেন খরচ নয়)

  • লোডের নিচে স্থিতিশীলতা (টাইমআউট, রেট সীমা, অস্বাভাবিক স্পাইক)

  • টুল কলিং নির্ভরযোগ্যতা (যদি এটি ফাংশন ব্যবহার করে, তাহলে কি এটি আচরণ করে)

  • আউটপুট দৈর্ঘ্যের প্রবণতা (কিছু মডেল ঘোরাঘুরি করে, এবং ঘোরাঘুরির জন্য টাকা খরচ হয়)

দ্বিগুণ দ্রুত গতির একটি সামান্য খারাপ মডেল বাস্তবে জিততে পারে। এটা স্পষ্ট শোনালেও, মানুষ তা উপেক্ষা করে। যেমন মুদিখানার জন্য একটি স্পোর্টস গাড়ি কেনা, তারপর ট্রাঙ্কের জায়গা নিয়ে অভিযোগ করা।.


১০) একটি সহজ এন্ড-টু-এন্ড ওয়ার্কফ্লো যা আপনি কপি (এবং টুইক) করতে পারেন 🔁✅

অবিরাম পরীক্ষা-নিরীক্ষায় আটকা না পড়ে কীভাবে AI মডেল মূল্যায়ন করবেন তার একটি ব্যবহারিক প্রবাহ এখানে দেওয়া হল

  1. সাফল্যের সংজ্ঞা দাও : কাজ, সীমাবদ্ধতা, ব্যর্থতার খরচ

  2. একটি ছোট "কোর" পরীক্ষা সেট তৈরি করুন : ৫০-২০০টি উদাহরণ যা বাস্তব ব্যবহার প্রতিফলিত করে

  3. এজ এবং অ্যাডভারসারিয়াল সেট যোগ করুন : ইনজেকশন প্রচেষ্টা, অস্পষ্ট প্রম্পট, নিরাপত্তা প্রোব (প্রম্পট ইনজেকশন ক্লাস: OWASP LLM01 )

  4. স্বয়ংক্রিয় চেক চালান : বিন্যাস, JSON বৈধতা, যেখানে সম্ভব মৌলিক শুদ্ধতা

  5. মানব পর্যালোচনা চালান : বিভাগ জুড়ে নমুনা আউটপুট, রুব্রিক সহ স্কোর

  6. বিনিময় তুলনা করুন : গুণমান বনাম খরচ বনাম বিলম্বিতা বনাম নিরাপত্তা

  7. সীমিত আকারে পাইলট সংস্করণ : A/B পরীক্ষা অথবা পর্যায়ক্রমে রোলআউট (A/B পরীক্ষার নির্দেশিকা: Kohavi et al. )

  8. উৎপাদনে মনিটর : ড্রিফট, রিগ্রেশন, ব্যবহারকারীর প্রতিক্রিয়া লুপ (ড্রিফট ওভারভিউ: কনসেপ্ট ড্রিফট সার্ভে (PMC) )

  9. ইটেরেট : আপডেট প্রম্পট, পুনরুদ্ধার, সূক্ষ্ম-সুরকরণ, গার্ডেল, তারপর পুনরায় eval চালান (ইভারেল পুনরাবৃত্তির ধরণ: OpenAI evals গাইড )

ভার্সন করা লগগুলো রেখে দাও। মজার জন্য নয়, বরং ভবিষ্যতের জন্য - তুমি কফি হাতে নিয়ে বিড়বিড় করে বলবে "কী পরিবর্তন হয়েছে..." ☕🙂


১১) সাধারণ বিপদ (যেমন: মানুষ কীভাবে দুর্ঘটনাক্রমে নিজেদের বোকা বানায়) 🪤

  • পরীক্ষার প্রশিক্ষণ : আপনি প্রম্পটগুলি অপ্টিমাইজ করেন যতক্ষণ না বেঞ্চমার্কটি দুর্দান্ত দেখায়, কিন্তু ব্যবহারকারীরা ক্ষতিগ্রস্থ হন

  • ফাঁস হওয়া মূল্যায়ন তথ্য : প্রশিক্ষণ বা সূক্ষ্ম-সুরকরণের তথ্যে পরীক্ষার প্রম্পট দেখা যায় (উফফফ)

  • একক মেট্রিক উপাসনা : এমন একটি স্কোরের পিছনে ছুটছে যা ব্যবহারকারীর মান প্রতিফলিত করে না

  • বিতরণ পরিবর্তন উপেক্ষা করা : ব্যবহারকারীর আচরণ পরিবর্তিত হয় এবং আপনার মডেলটি নীরবে হ্রাস পায় (উৎপাদন ঝুঁকি কাঠামো: ধারণা ড্রিফ্ট জরিপ (PMC) )

  • "স্মার্টনেস"-এর উপর অতিরিক্ত সূচক : চতুর যুক্তি বিন্যাস ভাঙে বা তথ্য উদ্ভাবন করে তাতে কিছু যায় আসে না

  • প্রত্যাখ্যানের মান পরীক্ষা করা হচ্ছে না : "না" সঠিক হতে পারে কিন্তু তবুও খারাপ UX

এছাড়াও, ডেমো থেকে সাবধান থাকুন। ডেমোগুলো সিনেমার ট্রেলারের মতো। এগুলো হাইলাইট দেখায়, ধীরগতির অংশগুলো লুকিয়ে রাখে এবং মাঝে মাঝে নাটকীয় সঙ্গীতের সাথে মিশে যায়। 🎬


১২) এআই মডেলগুলি কীভাবে মূল্যায়ন করবেন তার সমাপনী সারাংশ 🧠✨

AI মডেল মূল্যায়ন করা কেবল একটি নির্দিষ্ট স্কোর নয়, এটি একটি সুষম খাবার। আপনার প্রোটিন (সঠিকতা), শাকসবজি (নিরাপত্তা), কার্বোহাইড্রেট (গতি এবং খরচ) এবং হ্যাঁ, কখনও কখনও মিষ্টি (স্বর এবং আনন্দ) প্রয়োজন 🍲🍰 (ঝুঁকি কাঠামো: NIST AI RMF 1.0 )

যদি তোমার আর কিছু মনে না থাকে:

  • আপনার ব্যবহারের ক্ষেত্রে "ভালো" বলতে কী বোঝায় তা নির্ধারণ করুন।

  • শুধুমাত্র বিখ্যাত মানদণ্ড নয়, প্রতিনিধিত্বমূলক পরীক্ষা সেট ব্যবহার করুন

  • স্বয়ংক্রিয় মেট্রিক্সের সাথে মানব রুব্রিক পর্যালোচনা একত্রিত করুন

  • পরীক্ষার দৃঢ়তা এবং ব্যবহারকারীদের মতো নিরাপত্তা প্রতিকূল (কারণ কখনও কখনও... তারা হয়) (প্রম্পট ইনজেকশন ক্লাস: OWASP LLM01 )

  • মূল্যায়নে খরচ এবং বিলম্বিতা অন্তর্ভুক্ত করুন, পরবর্তী চিন্তাভাবনা হিসেবে নয় (কেন শতকরা হার গুরুত্বপূর্ণ: গুগল এসআরই ওয়ার্কবুক )

  • লঞ্চের পরে মনিটর করুন - মডেলগুলি ড্রিফট হয়, অ্যাপগুলি বিকশিত হয়, মানুষ সৃজনশীল হয় (ড্রিফট ওভারভিউ: কনসেপ্ট ড্রিফট সার্ভে (PMC) )

এভাবেই AI মডেলগুলিকে এমনভাবে মূল্যায়ন করা যায় যখন আপনার পণ্যটি লাইভ থাকে এবং লোকেরা অপ্রত্যাশিত জিনিসগুলি করতে শুরু করে। যা সর্বদা। 🙂

প্রায়শই জিজ্ঞাসিত প্রশ্নাবলী

একটি বাস্তব পণ্যের জন্য AI মডেল মূল্যায়নের প্রথম ধাপ কী?

আপনার নির্দিষ্ট ব্যবহারের ক্ষেত্রে "ভালো" বলতে কী বোঝায় তা সংজ্ঞায়িত করে শুরু করুন। ব্যবহারকারীর লক্ষ্য, ব্যর্থতার জন্য আপনার কী খরচ হবে (কম ঝুঁকি বনাম উচ্চ ঝুঁকি), এবং মডেলটি কোথায় চলবে (ক্লাউড, ডিভাইসে, নিয়ন্ত্রিত পরিবেশ) তা স্পষ্ট করে বলুন। তারপর ল্যাটেন্সি, খরচ, গোপনীয়তা এবং সুর নিয়ন্ত্রণের মতো কঠিন সীমাবদ্ধতাগুলি তালিকাভুক্ত করুন। এই ভিত্তি ছাড়া, আপনি অনেক কিছু পরিমাপ করবেন এবং তবুও একটি খারাপ সিদ্ধান্ত নেবেন।.

আমি কীভাবে এমন একটি পরীক্ষা সেট তৈরি করব যা সত্যিই আমার ব্যবহারকারীদের প্রতিফলিত করে?

এমন একটি পরীক্ষা সেট তৈরি করুন যা সত্যিই আপনার, কেবল একটি পাবলিক বেঞ্চমার্ক নয়। এমন সোনালী উদাহরণ অন্তর্ভুক্ত করুন যা আপনি গর্বের সাথে পাঠাবেন, এছাড়াও টাইপো, অর্ধ-বাক্য এবং অস্পষ্ট অনুরোধ সহ কোলাহলপূর্ণ, অস্পষ্ট প্রম্পটগুলি অন্তর্ভুক্ত করুন। হ্যালুসিনেশন বা অনিরাপদ উত্তরগুলিকে প্রলুব্ধ করে এমন প্রান্তিক কেস এবং ব্যর্থতা-মোড প্রোব যুক্ত করুন। দক্ষতার স্তর, উপভাষা, ভাষা এবং ডোমেনের বৈচিত্র্যকে কভার করুন যাতে ফলাফল উৎপাদনে ভেঙে না পড়ে।.

আমার কোন মেট্রিক্স ব্যবহার করা উচিত এবং কোনগুলি বিভ্রান্তিকর হতে পারে?

কাজের ধরণ অনুসারে মেট্রিক্স মেলান। এক্সট্রাকশন এবং স্ট্রাকচার্ড আউটপুটগুলির জন্য সঠিক মিল এবং নির্ভুলতা ভালোভাবে কাজ করে, যখন কিছু মিস হলে নির্ভুলতা/রিকল এবং F1 অতিরিক্ত শব্দের চেয়েও খারাপ সাহায্য করে। BLEU/ROUGE এর মতো ওভারল্যাপ মেট্রিক্স খোলামেলা কাজের জন্য বিভ্রান্তিকর হতে পারে এবং সাদৃশ্য এম্বেড করলে "ভুল কিন্তু একই রকম" উত্তর পাওয়া যেতে পারে। লেখা, সমর্থন বা যুক্তির জন্য, মানব পর্যালোচনা এবং কাজের সাফল্যের হারের সাথে মেট্রিক্স একত্রিত করুন।.

মূল্যায়নগুলিকে কীভাবে গঠন করা উচিত যাতে সেগুলি পুনরাবৃত্তিযোগ্য এবং উৎপাদন-গ্রেড হয়?

একটি শক্তিশালী মূল্যায়ন কাঠামো পুনরাবৃত্তিযোগ্য, প্রতিনিধিত্বমূলক, বহু-স্তরযুক্ত এবং কার্যকর। স্বয়ংক্রিয় পরীক্ষা (ফর্ম্যাট, JSON বৈধতা, মৌলিক শুদ্ধতা) মানব রুব্রিক স্কোরিং এবং প্রতিকূল পরীক্ষার সাথে একত্রিত করুন। ফাঁস এড়িয়ে এবং "পরীক্ষায় শিক্ষাদান" করে এটিকে টেম্পার-প্রতিরোধী করুন। মূল্যায়নের খরচ সম্পর্কে সচেতন থাকুন যাতে আপনি এটি ঘন ঘন পুনরায় চালাতে পারেন, কেবল লঞ্চের আগে একবার নয়।.

বিশৃঙ্খলা না ঘটিয়ে মানুষের মূল্যায়ন করার সর্বোত্তম উপায় কী?

একটি নির্দিষ্ট রুব্রিক ব্যবহার করুন যাতে পর্যালোচকরা ফ্রিস্টাইল না করেন। সঠিকতা, সম্পূর্ণতা, স্পষ্টতা, নিরাপত্তা/নীতি পরিচালনা, স্টাইল/ভয়েস মিল এবং বিশ্বস্ততার মতো গুণাবলী স্কোর করুন (দাবি বা উৎস আবিষ্কার না করে)। পর্যায়ক্রমে আন্তঃ-রেটার চুক্তি পরীক্ষা করুন; যদি পর্যালোচকরা ক্রমাগত দ্বিমত পোষণ করেন, তাহলে রুব্রিকটি সম্ভবত পরিমার্জন করা প্রয়োজন। স্বরের অমিল, সূক্ষ্ম তথ্যগত ত্রুটি এবং নির্দেশনা অনুসরণকারী ব্যর্থতার জন্য মানব পর্যালোচনা বিশেষভাবে মূল্যবান।.

নিরাপত্তা, দৃঢ়তা এবং দ্রুত ইনজেকশনের ঝুঁকি আমি কীভাবে মূল্যায়ন করব?

"উফ, ব্যবহারকারী" ইনপুট দিয়ে পরীক্ষা করুন: টাইপো, অপভাষা, পরস্পরবিরোধী নির্দেশাবলী, খুব দীর্ঘ বা খুব ছোট প্রম্পট, এবং একাধিক-টার্ন লক্ষ্য পরিবর্তন। "পূর্ববর্তী নিয়ম উপেক্ষা করুন" এর মতো প্রম্পট ইনজেকশন প্রচেষ্টা এবং সংবেদনশীল বিষয়গুলি অন্তর্ভুক্ত করুন যার জন্য সতর্কতার সাথে প্রত্যাখ্যান প্রয়োজন। ভাল সুরক্ষা কর্মক্ষমতা কেবল প্রত্যাখ্যান করা নয় - এটি স্পষ্টভাবে প্রত্যাখ্যান করা, উপযুক্ত হলে নিরাপদ বিকল্পগুলি অফার করা এবং UX-কে ক্ষতিগ্রস্ত করে এমন ক্ষতিকারক প্রশ্নগুলিকে অতিরিক্ত প্রত্যাখ্যান করা এড়ানো।.

বাস্তবতার সাথে মিলে যায় এমনভাবে আমি কীভাবে খরচ এবং বিলম্বিতা মূল্যায়ন করব?

শুধু গড় পরিমাপ করবেন না - ল্যাটেন্সি ডিস্ট্রিবিউশন ট্র্যাক করুন, বিশেষ করে p95 এবং p99। প্রতি সফল কাজের খরচ মূল্যায়ন করুন, প্রতি টোকেনের খরচ আলাদাভাবে নয়, কারণ পুনঃপ্রচেষ্টা এবং র‍্যাম্বলিং আউটপুট সঞ্চয় মুছে ফেলতে পারে। লোডের অধীনে স্থিতিশীলতা (টাইমআউট, রেট লিমিট, স্পাইক) এবং টুল/ফাংশন কলিং নির্ভরযোগ্যতা পরীক্ষা করুন। দ্বিগুণ দ্রুত বা তার বেশি স্থিতিশীল একটি সামান্য খারাপ মডেলই ভালো পণ্য পছন্দ হতে পারে।.

এআই মডেলগুলি মূল্যায়ন করার জন্য একটি সহজ এন্ড-টু-এন্ড ওয়ার্কফ্লো কী?

সাফল্যের মানদণ্ড এবং সীমাবদ্ধতাগুলি সংজ্ঞায়িত করুন, তারপর একটি ছোট কোর টেস্ট সেট তৈরি করুন (প্রায় 50-200টি উদাহরণ) যা বাস্তব ব্যবহারের প্রতিফলন ঘটায়। নিরাপত্তা এবং ইনজেকশন প্রচেষ্টার জন্য প্রান্ত এবং প্রতিকূল সেট যোগ করুন। স্বয়ংক্রিয় পরীক্ষা চালান, তারপর মানব রুব্রিক স্কোরিংয়ের জন্য নমুনা আউটপুট। গুণমান বনাম খরচ বনাম লেটেন্সি বনাম নিরাপত্তা তুলনা করুন, একটি সীমিত রোলআউট বা A/B পরীক্ষার সাথে পাইলট করুন, এবং ড্রিফ্ট এবং রিগ্রেশনের জন্য উৎপাদন পর্যবেক্ষণ করুন।.

মডেল মূল্যায়নে দলগুলি দুর্ঘটনাক্রমে নিজেদের বোকা বানানোর সবচেয়ে সাধারণ উপায়গুলি কী কী?

সাধারণ ফাঁদের মধ্যে রয়েছে ব্যবহারকারীদের কষ্টের সময় একটি বেঞ্চমার্ক অর্জনের জন্য প্রম্পট অপ্টিমাইজ করা, মূল্যায়ন প্রম্পটগুলি প্রশিক্ষণ বা সূক্ষ্ম-টিউনিং ডেটাতে ফাঁস করা এবং ব্যবহারকারীর মূল্য প্রতিফলিত না করে এমন একটি একক মেট্রিকের উপাসনা করা। দলগুলি বিতরণ পরিবর্তনকেও উপেক্ষা করে, ফর্ম্যাট সম্মতি এবং বিশ্বস্ততার পরিবর্তে "স্মার্টনেস"-এর উপর অতিরিক্ত সূচক তৈরি করে এবং প্রত্যাখ্যানের মান পরীক্ষা এড়িয়ে যায়। ডেমোগুলি এই সমস্যাগুলি আড়াল করতে পারে, তাই রিলগুলিকে হাইলাইট করার পরিবর্তে কাঠামোগত মূল্যায়নের উপর নির্ভর করে।.

তথ্যসূত্র

  1. ওপেনএআই - ওপেনএআই মূল্যায়ন নির্দেশিকা - platform.openai.com

  2. ন্যাশনাল ইনস্টিটিউট অফ স্ট্যান্ডার্ডস অ্যান্ড টেকনোলজি (NIST) - AI ঝুঁকি ব্যবস্থাপনা কাঠামো (AI RMF 1.0) - nist.gov

  3. ওপেনএআই - ওপেনএআই/ইভালস (গিটহাব রিপোজিটরি) - github.com

  4. সাইকিট-লার্ন - precision_recall_fscore_support - সাইকিট-লার্ন.অর্গ

  5. অ্যাসোসিয়েশন ফর কম্পিউটেশনাল লিঙ্গুইস্টিক্স (ACL অ্যান্থোলজি) - BLEU - aclanthology.org

  6. অ্যাসোসিয়েশন ফর কম্পিউটেশনাল লিঙ্গুইস্টিক্স (ACL অ্যান্থোলজি) - ROUGE - aclanthology.org

  7. arXiv - জি-ইভাল - arxiv.org

  8. OWASP - LLM01: প্রম্পট ইনজেকশন - owasp.org

  9. OWASP - বৃহৎ ভাষার মডেল অ্যাপ্লিকেশনের জন্য OWASP শীর্ষ ১০ - owasp.org

  10. স্ট্যানফোর্ড বিশ্ববিদ্যালয় - কোহাভি এবং অন্যান্য, "ওয়েবে নিয়ন্ত্রিত পরীক্ষা-নিরীক্ষা" - stanford.edu

  11. arXiv - RAG এর মূল্যায়ন: একটি জরিপ - arxiv.org

  12. পাবমেড সেন্ট্রাল (PMC) - কনসেপ্ট ড্রিফ্ট সার্ভে (PMC) - nih.gov

  13. পাবমেড সেন্ট্রাল (পিএমসি) - কোহেনের কাপ্পা সম্পর্কে ম্যাকহাগ - nih.gov

  14. গুগল - পর্যবেক্ষণের উপর SRE ওয়ার্কবুক - google.workbook

অফিসিয়াল এআই অ্যাসিস্ট্যান্ট স্টোরে সর্বশেষ এআই খুঁজুন

আমাদের সম্পর্কে

ব্লগে ফিরে যান