সংক্ষিপ্ত উত্তর: AI মডেলগুলিকে ভালোভাবে মূল্যায়ন করার জন্য, প্রকৃত ব্যবহারকারীর জন্য "ভালো" কেমন দেখাচ্ছে এবং হাতে থাকা সিদ্ধান্তটি নির্ধারণ করে শুরু করুন। তারপর প্রতিনিধিত্বমূলক ডেটা, কঠোর লিকেজ নিয়ন্ত্রণ এবং একাধিক মেট্রিক্স ব্যবহার করে পুনরাবৃত্তিযোগ্য মূল্যায়ন তৈরি করুন। চাপ, পক্ষপাত এবং সুরক্ষা পরীক্ষা যোগ করুন এবং যখনই কিছু পরিবর্তন হয় (ডেটা, প্রম্পট, নীতি), তখন জোতাটি পুনরায় চালান এবং লঞ্চের পরে পর্যবেক্ষণ চালিয়ে যান।
মূল বিষয়গুলি:
সাফল্যের মানদণ্ড : মেট্রিক্স নির্বাচন করার আগে ব্যবহারকারী, সিদ্ধান্ত, সীমাবদ্ধতা এবং সবচেয়ে খারাপ ক্ষেত্রে ব্যর্থতা সংজ্ঞায়িত করুন।
পুনরাবৃত্তিযোগ্যতা : এমন একটি eval জোতা তৈরি করুন যা প্রতিটি পরিবর্তনের সাথে তুলনীয় পরীক্ষাগুলি পুনরায় চালায়।
ডেটা হাইজিন : স্থিতিশীল বিভাজন বজায় রাখুন, ডুপ্লিকেট প্রতিরোধ করুন এবং বৈশিষ্ট্য লিকেজ তাড়াতাড়ি বন্ধ করুন।
বিশ্বাস পরীক্ষা : স্ট্রেস-পরীক্ষার দৃঢ়তা, ন্যায্যতার টুকরো, এবং এলএলএম সুরক্ষা আচরণ স্পষ্ট রুব্রিক সহ।
জীবনচক্রের শৃঙ্খলা : ধাপে ধাপে চালু করুন, প্রবাহ এবং ঘটনাগুলি পর্যবেক্ষণ করুন এবং জ্ঞাত ফাঁকগুলি নথিভুক্ত করুন।
এর পরে আপনি যে প্রবন্ধগুলি পড়তে পছন্দ করতে পারেন:
🔗 এআই নীতিশাস্ত্র কী?
দায়িত্বশীল AI নকশা, ব্যবহার এবং শাসন পরিচালনার নীতিগুলি অন্বেষণ করুন।.
🔗 এআই পক্ষপাত কী?
পক্ষপাতদুষ্ট তথ্য কীভাবে AI সিদ্ধান্ত এবং ফলাফলকে বিকৃত করে তা জানুন।.
🔗 এআই স্কেলেবিলিটি কী?
কর্মক্ষমতা, খরচ এবং নির্ভরযোগ্যতার জন্য AI সিস্টেমের স্কেলিং বুঝুন।.
🔗 এআই কী?
কৃত্রিম বুদ্ধিমত্তা, প্রকারভেদ এবং বাস্তব ব্যবহারের একটি স্পষ্ট ওভারভিউ।.
১) "ভালো" এর অমার্জিত সংজ্ঞা দিয়ে শুরু করুন
মেট্রিক্সের আগে, ড্যাশবোর্ডের আগে, যেকোনো বেঞ্চমার্ক ফ্লেক্সিংয়ের আগে - সাফল্য কেমন তা নির্ধারণ করুন।.
স্পষ্ট করুন:
-
ব্যবহারকারী: অভ্যন্তরীণ বিশ্লেষক, গ্রাহক, চিকিৎসক, ড্রাইভার, বিকেল ৪টায় একজন ক্লান্ত সহায়তা এজেন্ট...
-
সিদ্ধান্ত: ঋণ অনুমোদন, জালিয়াতি চিহ্নিত করা, বিষয়বস্তু সুপারিশ করা, নোট সংক্ষিপ্ত করা
-
সবচেয়ে গুরুত্বপূর্ণ ব্যর্থতাগুলি:
-
মিথ্যা ইতিবাচক (বিরক্তিকর) বনাম মিথ্যা নেতিবাচক (বিপজ্জনক)
-
-
সীমাবদ্ধতা: বিলম্ব, প্রতি অনুরোধের খরচ, গোপনীয়তার নিয়ম, ব্যাখ্যাযোগ্যতার প্রয়োজনীয়তা, অ্যাক্সেসযোগ্যতা
এই অংশে দলগুলি "অর্থপূর্ণ ফলাফল" এর পরিবর্তে "সুন্দর মেট্রিক" এর জন্য অপ্টিমাইজেশনে ঝুঁকে পড়ে। এটি প্রায়শই ঘটে। যেমন... অনেক কিছু।.
এই ঝুঁকি-সচেতনতা (এবং ভাইব-ভিত্তিক নয়) বজায় রাখার একটি শক্তিশালী উপায় হল বিশ্বস্ততা এবং জীবনচক্র ঝুঁকি ব্যবস্থাপনার চারপাশে পরীক্ষা কাঠামো তৈরি করা, যেমনটি NIST AI ঝুঁকি ব্যবস্থাপনা কাঠামোতে (AI RMF 1.0) [1] করে।

২) “কীভাবে AI মডেল পরীক্ষা করবেন” এর একটি ভালো সংস্করণ কী তৈরি করে ✅
একটি দৃঢ় পরীক্ষার পদ্ধতির কিছু অ-আলোচনাযোগ্য বিষয় রয়েছে:
-
প্রতিনিধিত্বমূলক তথ্য (শুধুমাত্র পরিষ্কার ল্যাব ডেটা নয়)
-
পরিষ্কার স্প্লিট (এক সেকেন্ডের মধ্যে আরও বিস্তারিত)
-
বেসলাইন (সহজ মডেল যা আপনার করা উচিত - ডামি এস্টিমেটারগুলি একটি কারণে বিদ্যমান [4])
-
একাধিক মেট্রিক্স (কারণ একটি সংখ্যা আপনার কাছে মিথ্যা, বিনয়ের সাথে, আপনার মুখের সামনে)
-
স্ট্রেস টেস্ট (প্রান্তিক ঘটনা, অস্বাভাবিক ইনপুট, প্রতিকূল পরিস্থিতি)
-
মানব পর্যালোচনা লুপ (বিশেষ করে জেনারেটিভ মডেলের জন্য)
-
উৎক্ষেপণের পর পর্যবেক্ষণ (কারণ পৃথিবী বদলে যায়, পাইপলাইন ভেঙে যায় এবং ব্যবহারকারীরা... সৃজনশীল [1])
এছাড়াও: একটি ভালো পদ্ধতির মধ্যে রয়েছে আপনি কী পরীক্ষা করেছেন, কী করেননি এবং কী নিয়ে আপনি নার্ভাস, তা নথিভুক্ত করা। "আমি কী নিয়ে নার্ভাস" বিভাগটি অস্বস্তিকর মনে হয় - এবং এটিই সেই জায়গা যেখানে বিশ্বাস তৈরি হতে শুরু করে।.
দুটি ডকুমেন্টেশন প্যাটার্ন যা ধারাবাহিকভাবে দলগুলিকে স্পষ্ট থাকতে সাহায্য করে:
-
মডেল কার্ড (মডেলটি কীসের জন্য, এটি কীভাবে মূল্যায়ন করা হয়েছিল, কোথায় এটি ব্যর্থ হয়) [2]
-
ডেটাসেটের জন্য ডেটাশিট (ডেটা কী, কীভাবে সংগ্রহ করা হয়েছিল, কীসের জন্য এটি ব্যবহার করা উচিত/উচিত নয়) [3]
৩) হাতিয়ারের বাস্তবতা: মানুষ বাস্তবে কী ব্যবহার করে 🧰
সরঞ্জামগুলি ঐচ্ছিক। ভালো মূল্যায়নের অভ্যাস ঐচ্ছিক নয়।.
যদি আপনি একটি বাস্তবসম্মত সেটআপ চান, তাহলে বেশিরভাগ দলই তিনটি বালতি নিয়ে শেষ করে:
-
পরীক্ষা ট্র্যাকিং (রান, কনফিগারেশন, আর্টিফ্যাক্ট)
-
মূল্যায়ন জোতা (পুনরাবৃত্তিযোগ্য অফলাইন পরীক্ষা + রিগ্রেশন স্যুট)
-
পর্যবেক্ষণ (ড্রিফট-ইশ সিগন্যাল, পারফরম্যান্স প্রক্সি, ঘটনার সতর্কতা)
উদাহরণ হিসেবে আপনি অনেক কিছু দেখতে পাবেন (প্রস্তাবনা নয়, এবং হ্যাঁ - বৈশিষ্ট্য/মূল্য পরিবর্তন): MLflow, ওজন এবং পক্ষপাত, দুর্দান্ত প্রত্যাশা, স্পষ্টতই, Deepchecks, OpenAI Evals, TruLens, LangSmith।.
যদি আপনি এই বিভাগ থেকে ধারণা একটি পুনরাবৃত্তিযোগ্য eval জোতা তৈরি করুন । আপনি "বোতাম টিপুন → তুলনামূলক ফলাফল পান" চান, "নোটবুক পুনরায় চালান এবং প্রার্থনা করুন" নয়।
৪) সঠিক পরীক্ষা সেট তৈরি করুন (এবং ডেটা ফাঁস বন্ধ করুন) 🚧
"আশ্চর্যজনক" মডেলদের একটি চমকপ্রদ সংখ্যক দুর্ঘটনাক্রমে প্রতারণা করছে।.
স্ট্যান্ডার্ড এমএল এর জন্য
ক্যারিয়ার বাঁচাতে কিছু আনসেক্সি নিয়ম:
-
ট্রেন/বৈধকরণ/পরীক্ষার রাখুন (এবং বিভাজন যুক্তিটি লিখুন)
-
বিভিন্ন স্প্লিটে ডুপ্লিকেট প্রতিরোধ করুন (একই ব্যবহারকারী, একই ডক, একই পণ্য, প্রায়-ডুপ্লিকেট)
-
বৈশিষ্ট্য ফাঁসের দিকে নজর রাখুন (ভবিষ্যতের তথ্য "বর্তমান" বৈশিষ্ট্যগুলিতে লুকিয়ে আছে)
-
বেসলাইন (ডামি এস্টিমেটার) ব্যবহার করুন যাতে আপনি বিটিং উদযাপন না করেন... কিছুই না [4]
লিকেজ সংজ্ঞা (দ্রুত সংস্করণ): প্রশিক্ষণ/ইভালের যেকোনো কিছু যা মডেলকে এমন তথ্যে অ্যাক্সেস দেয় যা সিদ্ধান্ত নেওয়ার সময় তার কাছে থাকবে না। এটি স্পষ্ট ("ভবিষ্যতের লেবেল") বা সূক্ষ্ম ("ইভেন্ট-পরবর্তী টাইমস্ট্যাম্প বাকেট") হতে পারে।
এলএলএম এবং জেনারেটিভ মডেলের জন্য
তুমি কেবল "একটি মডেল" নয়, একটি প্রম্পট-এবং-নীতি ব্যবস্থা
-
একটি সুবর্ণ সেট (ছোট, উচ্চমানের, স্থিতিশীল)
-
সাম্প্রতিক বাস্তব নমুনা যোগ করুন (বেনামী + গোপনীয়তা-নিরাপদ)
-
একটি সহজ-সরল প্যাক : টাইপো, অপভাষা, অ-মানক বিন্যাস, খালি ইনপুট, বহুভাষিক চমক 🌍
একটি বাস্তব ঘটনা যা আমি একাধিকবার ঘটতে দেখেছি: একটি দল "শক্তিশালী" অফলাইন স্কোর নিয়ে আসে, তারপর গ্রাহক সহায়তা বলে, "দারুন। এটি আত্মবিশ্বাসের সাথে গুরুত্বপূর্ণ একটি বাক্য মিস করছে।" সমাধানটি "বড় মডেল" ছিল না। এটি ছিল আরও ভাল পরীক্ষার প্রম্পট , স্পষ্ট রুব্রিক এবং একটি রিগ্রেশন স্যুট যা সঠিক ব্যর্থতার মোডকে শাস্তি দেয়। সাধারণ। কার্যকর।
৫) অফলাইন মূল্যায়ন: এমন মেট্রিক্স যা কিছু বোঝায় 📏
মেট্রিক ঠিক আছে। মেট্রিক মনোকালচার ঠিক নেই।.
শ্রেণীবিভাগ (স্প্যাম, জালিয়াতি, অভিপ্রায়, ট্রাইএজ)
নির্ভুলতার চেয়ে বেশি ব্যবহার করুন।.
-
নির্ভুলতা, প্রত্যাহার, F1
-
থ্রেশহোল্ড টিউনিং (আপনার ডিফল্ট থ্রেশহোল্ড আপনার খরচের জন্য খুব কমই "সঠিক") [4]
-
প্রতি সেগমেন্টে কনফিউশন ম্যাট্রিক্স (অঞ্চল, ডিভাইসের ধরণ, ব্যবহারকারীর দল)
রিগ্রেশন (পূর্বাভাস, মূল্য নির্ধারণ, স্কোরিং)
-
MAE / RMSE (আপনি কীভাবে ত্রুটির শাস্তি দিতে চান তার উপর ভিত্তি করে নির্বাচন করুন)
-
আউটপুটগুলিকে "স্কোর" হিসাবে ব্যবহার করার সময় ক্যালিব্রেশন-ইশ পরীক্ষা করে (স্কোরগুলি কি বাস্তবতার সাথে সামঞ্জস্যপূর্ণ?)
র্যাঙ্কিং / সুপারিশকারী সিস্টেম
-
এনডিসিজি, এমএপি, এমআরআর
-
কোয়েরির ধরণ অনুসারে স্লাইস করুন (হেড বনাম লেজ)
কম্পিউটার দৃষ্টি
-
এমএপি, আইওইউ
-
প্রতি-শ্রেণীর পারফরম্যান্স (বিরল ক্লাস যেখানে মডেলরা আপনাকে বিব্রত করে)
জেনারেটিভ মডেল (এলএলএম)
এখানেই মানুষ... দার্শনিকতা পায় 😵💫
বাস্তব দলে কাজ করে এমন ব্যবহারিক বিকল্পগুলি:
-
মানুষের মূল্যায়ন (সেরা সংকেত, ধীরতম লুপ)
-
জোড়া অনুসারে পছন্দ / জয়ের হার (A বনাম B পরম স্কোরিংয়ের চেয়ে সহজ)
-
স্বয়ংক্রিয় টেক্সট মেট্রিক্স (কিছু কাজের জন্য কার্যকর, অন্যদের জন্য বিভ্রান্তিকর)
-
কার্য-ভিত্তিক পরীক্ষা: "এটি কি সঠিক ক্ষেত্রগুলি বের করেছে?" "এটি কি নীতি অনুসরণ করেছে?" "প্রয়োজনের সময় কি এটি উৎস উদ্ধৃত করেছে?"
যদি আপনি একটি কাঠামোগত "বহু-মেট্রিক, বহু-পরিস্থিতি" রেফারেন্স পয়েন্ট চান, তাহলে HELM একটি ভাল অ্যাঙ্কর: এটি স্পষ্টভাবে মূল্যায়নকে নির্ভুলতার বাইরে ক্রমাঙ্কন, দৃঢ়তা, পক্ষপাত/বিষাক্ততা এবং দক্ষতা বিনিময়ের মতো বিষয়গুলিতে ঠেলে দেয় [5]।.
সামান্য বিচ্যুতি: লেখার মানের জন্য স্বয়ংক্রিয় মেট্রিক্স কখনও কখনও ওজন করে একটি স্যান্ডউইচ বিচার করার মতো মনে হয়। এটা কিছুই নয়, কিন্তু... আসুন 🥪
৬) দৃঢ়তা পরীক্ষা: একটু ঘাম ঝরিয়ে নিন 🥵🧪
যদি তোমার মডেলটি কেবল পরিপাটি ইনপুট দিয়ে কাজ করে, তাহলে এটি মূলত একটি কাচের ফুলদানি। সুন্দর, ভঙ্গুর, ব্যয়বহুল।.
পরীক্ষা:
-
শব্দ: টাইপিং ভুল, মান অনুপস্থিত, অ-মানক ইউনিকোড, ফর্ম্যাটিং ত্রুটি
-
বিতরণ পরিবর্তন: নতুন পণ্য বিভাগ, নতুন ভাষা, নতুন সেন্সর
-
চরম মান: সীমার বাইরের সংখ্যা, বিশাল পেলোড, খালি স্ট্রিং
-
"বিপরীতমুখী" ইনপুট যা আপনার প্রশিক্ষণ সেটের মতো দেখতে না হলেও ব্যবহারকারীদের মতো দেখায়
এলএলএম-এর জন্য, অন্তর্ভুক্ত করুন:
-
দ্রুত ইনজেকশনের প্রচেষ্টা (ব্যবহারকারীর কন্টেন্টের ভিতরে লুকানো নির্দেশাবলী)
-
"পূর্ববর্তী নির্দেশাবলী উপেক্ষা করুন" প্যাটার্ন
-
টুল-ব্যবহারের প্রান্তের কেস (খারাপ URL, টাইমআউট, আংশিক আউটপুট)
দৃঢ়তা হলো বিশ্বাসযোগ্যতার এমন একটি বৈশিষ্ট্য যা ঘটনা না ঘটা পর্যন্ত বিমূর্ত শোনায়। তারপর এটি... খুবই বাস্তব [1] হয়ে ওঠে।.
৭) পক্ষপাত, ন্যায্যতা, এবং এটি কার জন্য কাজ করে ⚖️
একটি মডেল সামগ্রিকভাবে "নির্ভুল" হতে পারে, কিন্তু নির্দিষ্ট গোষ্ঠীর জন্য ধারাবাহিকভাবে খারাপ হতে পারে। এটি কোনও ছোট সমস্যা নয়। এটি একটি পণ্য এবং বিশ্বাসের সমস্যা।.
ব্যবহারিক পদক্ষেপ:
-
অর্থপূর্ণ বিভাগ অনুসারে কর্মক্ষমতা মূল্যায়ন করুন (আইনগত/নৈতিকভাবে পরিমাপের জন্য উপযুক্ত)
-
বিভিন্ন গ্রুপে ত্রুটির হার এবং ক্রমাঙ্কনের তুলনা করুন
-
সংবেদনশীল বৈশিষ্ট্যগুলি এনকোড করতে পারে এমন প্রক্সি বৈশিষ্ট্যগুলির (জিপ কোড, ডিভাইসের ধরণ, ভাষা) পরীক্ষা করুন।
যদি আপনি কোথাও এটি নথিভুক্ত না করেন, তাহলে আপনি মূলত ভবিষ্যতের জন্য আপনাকে একটি মানচিত্র ছাড়াই একটি বিশ্বাস সংকট ডিবাগ করতে বলছেন। মডেল কার্ডগুলি এটি রাখার জন্য একটি শক্ত জায়গা [2], এবং NIST-এর বিশ্বাসযোগ্যতা ফ্রেমিং আপনাকে "ভালো" এর মধ্যে কী অন্তর্ভুক্ত করা উচিত তার একটি শক্তিশালী চেকলিস্ট দেয় [1]।.
৮) নিরাপত্তা এবং সুরক্ষা পরীক্ষা (বিশেষ করে এলএলএম-এর জন্য) 🛡️
যদি তোমার মডেল কন্টেন্ট তৈরি করতে পারে, তাহলে তুমি নির্ভুলতার চেয়েও বেশি কিছু পরীক্ষা করছো। তুমি আচরণ পরীক্ষা করছো।.
এর জন্য পরীক্ষা অন্তর্ভুক্ত করুন:
-
কন্টেন্ট তৈরির অনুমতি নেই (নীতি লঙ্ঘন)
-
গোপনীয়তা ফাঁস (এটি কি গোপনীয়তার প্রতিধ্বনি?)
-
উচ্চ-ক্ষমতার ক্ষেত্রগুলিতে হ্যালুসিনেশন
-
অতিরিক্ত প্রত্যাখ্যান (মডেল স্বাভাবিক অনুরোধ প্রত্যাখ্যান করে)
-
বিষাক্ততা এবং হয়রানির ফলাফল
-
প্রম্পট ইনজেকশনের মাধ্যমে ডেটা এক্সফিল্ট্রেশনের প্রচেষ্টা
একটি ভিত্তিগত পদ্ধতি হল: নীতিমালার নিয়ম নির্ধারণ করা → পরীক্ষার প্রম্পট তৈরি করা → মানব + স্বয়ংক্রিয় চেক ব্যবহার করে আউটপুট স্কোর করা → যেকোনো পরিবর্তনের সময় এটি চালানো। সেই "প্রতিবার" অংশটি হল ভাড়া।.
এটি জীবনচক্রের ঝুঁকির মানসিকতার সাথে সুন্দরভাবে খাপ খায়: পরিচালনা করুন, প্রসঙ্গ মানচিত্র করুন, পরিমাপ করুন, পরিচালনা করুন, পুনরাবৃত্তি করুন [1]।.
৯) অনলাইন পরীক্ষা: পর্যায়ক্রমে রোলআউট (যেখানে সত্য বাস করে) 🚀
অফলাইন পরীক্ষা প্রয়োজন। অনলাইনে এক্সপোজার হলো এমন একটি জায়গা যেখানে কাদাযুক্ত জুতা পরে বাস্তবতা ফুটে ওঠে।.
তোমাকে অভিনব হতে হবে না। তোমাকে শুধু শৃঙ্খলাবদ্ধ হতে হবে:
-
শ্যাডো মোডে চালান (মডেল চলে, ব্যবহারকারীদের প্রভাবিত করে না)
-
ধীরে ধীরে চালু করা হবে (প্রথমে কম ট্রাফিক, ভালো হলে প্রসারিত করুন)
-
ফলাফল এবং ঘটনাগুলি ট্র্যাক করুন (অভিযোগ, বৃদ্ধি, নীতিগত ব্যর্থতা)
এমনকি যদি আপনি তাৎক্ষণিক লেবেল নাও পেতে পারেন, তবুও আপনি প্রক্সি সিগন্যাল এবং অপারেশনাল স্বাস্থ্য (লেটেন্সি, ব্যর্থতার হার, খরচ) পর্যবেক্ষণ করতে পারেন। মূল বিষয়: আপনার পুরো ব্যবহারকারী বেস [1] করার আগে
১০) স্থাপনার পরে পর্যবেক্ষণ: প্রবাহ, ক্ষয় এবং নীরব ব্যর্থতা 📉👀
তুমি যে মডেলটি পরীক্ষা করেছো, সেটা তোমার জীবনযাপনের মডেল নয়। তথ্য বদলে যায়। ব্যবহারকারী বদলে যায়। পৃথিবী বদলে যায়। রাত ২টায় পাইপলাইন ভেঙে যায়। তুমি জানো এটা কেমন..
মনিটর:
-
ইনপুট ডেটা ড্রিফট (স্কিমা পরিবর্তন, অনুপস্থিতি, বিতরণ পরিবর্তন)
-
আউটপুট ড্রিফট (ক্লাস ব্যালেন্স শিফট, স্কোর শিফট)
-
পারফরম্যান্স প্রক্সি (কারণ লেবেল বিলম্ব বাস্তব)
-
প্রতিক্রিয়া সংকেত (থাম্বস ডাউন, পুনঃসম্পাদনা, বৃদ্ধি)
-
সেগমেন্ট-লেভেল রিগ্রেশন (নীরব ঘাতক)
এবং সতর্কতার সীমা নির্ধারণ করুন যা খুব বেশি নড়বড়ে নয়। একটি মনিটর যা ক্রমাগত চিৎকার করে তা উপেক্ষা করা হয় - শহরের গাড়ির অ্যালার্মের মতো।.
যদি আপনি বিশ্বাসযোগ্যতা সম্পর্কে চিন্তা করেন তবে এই "মনিটর + সময়ের সাথে সাথে উন্নতি" লুপটি ঐচ্ছিক নয় [1]।.
১১) একটি ব্যবহারিক কর্মপ্রবাহ যা আপনি অনুলিপি করতে পারেন 🧩
এখানে একটি সহজ লুপ যা স্কেল করে:
-
সাফল্য + ব্যর্থতার ধরণ নির্ধারণ করুন (ব্যয়/বিলম্ব/নিরাপত্তা সহ) [1]
-
ডেটাসেট তৈরি করুন:
-
সোনালী সেট
-
এজ-কেস প্যাক
-
সাম্প্রতিক বাস্তব নমুনা (গোপনীয়তা-নিরাপদ)
-
-
মেট্রিক্স বেছে নিন:
-
টাস্ক মেট্রিক্স (F1, MAE, জয়-হার) [4][5]
-
নিরাপত্তা মেট্রিক্স (পলিসি পাসের হার) [1][5]
-
কর্মক্ষমতার মেট্রিক্স (বিলম্ব, খরচ)
-
-
একটি মূল্যায়ন জোতা তৈরি করুন (প্রতিটি মডেল/প্রম্পট পরিবর্তনের উপর চলে) [4][5]
-
স্ট্রেস টেস্ট + অ্যাডভারসারিয়াল-ইশ টেস্ট যোগ করুন [1][5]
-
একটি নমুনার জন্য মানব পর্যালোচনা (বিশেষ করে LLM আউটপুটগুলির জন্য) [5]
-
ছায়ার মাধ্যমে শিপ + স্টেজড রোলআউট [1]
-
নিরীক্ষণ + সতর্কীকরণ + শৃঙ্খলার সাথে পুনরায় প্রশিক্ষণ দিন [1]
-
ডকুমেন্টের ফলাফল মডেল-কার্ড স্টাইলে লেখা [2][3]
প্রশিক্ষণ মনোমুগ্ধকর। পরীক্ষা ভাড়া-প্রদানকারী।.
১২) সমাপনী নোট + দ্রুত সংক্ষিপ্তসার 🧠✨
AI মডেলগুলি পরীক্ষা করার বিষয়ে কেবল কয়েকটি জিনিস মনে থাকে :
-
প্রতিনিধিত্বমূলক পরীক্ষার তথ্য ব্যবহার করুন এবং ফাঁস এড়ান [4]
-
একাধিক মেট্রিক্স বেছে নিন [4][5]
-
মানব পর্যালোচনা + জয়-হার শৈলী তুলনার উপর নির্ভর করুন [5]
-
পরীক্ষার দৃঢ়তা - অস্বাভাবিক ইনপুটগুলি ছদ্মবেশে স্বাভাবিক ইনপুট [1]
-
নিরাপদে রোল আউট করুন এবং পর্যবেক্ষণ করুন, কারণ মডেলগুলি ড্রিফ্ট এবং পাইপলাইনগুলি ভেঙে যায় [1]
-
আপনি কী করেছেন এবং কী পরীক্ষা করেননি তা নথিভুক্ত করুন (অস্বস্তিকর কিন্তু শক্তিশালী) [2][3]
পরীক্ষা করা মানে কেবল "এটি কাজ করে কিনা তা প্রমাণ করা" নয়। এটি হল "আপনার ব্যবহারকারীদের আগে এটি কীভাবে ব্যর্থ হয় তা খুঁজে বের করা।" এবং হ্যাঁ, এটি কম সেক্সি - তবে এটি এমন একটি অংশ যা আপনার সিস্টেমকে স্থির রাখে যখন জিনিসগুলি অস্থির হয়ে ওঠে... 🧱🙂
প্রায়শই জিজ্ঞাসিত প্রশ্নাবলী
ব্যবহারকারীর প্রকৃত চাহিদা মেটাতে AI মডেলগুলি পরীক্ষা করার সর্বোত্তম উপায়
"ভালো" শব্দটিকে প্রকৃত ব্যবহারকারী এবং মডেলটি যে সিদ্ধান্তকে সমর্থন করে তার পরিপ্রেক্ষিতে সংজ্ঞায়িত করে শুরু করুন, কেবল একটি লিডারবোর্ড মেট্রিক নয়। সর্বোচ্চ খরচের ব্যর্থতার মোডগুলি (মিথ্যা ইতিবাচক বনাম মিথ্যা নেতিবাচক) চিহ্নিত করুন এবং ল্যাটেন্সি, খরচ, গোপনীয়তা এবং ব্যাখ্যাযোগ্যতার মতো কঠিন সীমাবদ্ধতাগুলি বানান করুন। তারপর মেট্রিক্স এবং পরীক্ষার কেসগুলি বেছে নিন যা সেই ফলাফলগুলিকে প্রতিফলিত করে। এটি আপনাকে এমন একটি "সুন্দর মেট্রিক" অপ্টিমাইজ করতে বাধা দেয় যা কখনও একটি ভাল পণ্যে রূপান্তরিত হয় না।.
মূল্যায়নের মেট্রিক্স নির্বাচনের আগে সাফল্যের মানদণ্ড নির্ধারণ করা
ব্যবহারকারী কে, মডেলটি কোন সিদ্ধান্তকে সমর্থন করার জন্য তৈরি, এবং উৎপাদনে "সবচেয়ে খারাপ ক্ষেত্রে ব্যর্থতা" কেমন দেখায় তা লিখুন। গ্রহণযোগ্য বিলম্বিতা এবং অনুরোধ প্রতি খরচের মতো কার্যকরী সীমাবদ্ধতা, এবং গোপনীয়তা নিয়ম এবং সুরক্ষা নীতির মতো প্রশাসনিক প্রয়োজনীয়তা যোগ করুন। একবার এগুলি স্পষ্ট হয়ে গেলে, মেট্রিক্স সঠিক জিনিস পরিমাপ করার একটি উপায় হয়ে ওঠে। এই কাঠামো ছাড়াই, দলগুলি যা পরিমাপ করা সহজ তা অপ্টিমাইজ করার দিকে ঝুঁকে পড়ে।.
মডেল মূল্যায়নে তথ্য ফাঁস এবং দুর্ঘটনাজনিত প্রতারণা রোধ করা
ট্রেন/বৈধকরণ/পরীক্ষার বিভাজন স্থিতিশীল রাখুন এবং ফলাফল পুনরুৎপাদনযোগ্য রাখার জন্য স্প্লিট লজিক ডকুমেন্ট করুন। স্প্লিটগুলিতে (একই ব্যবহারকারী, ডকুমেন্ট, পণ্য, বা পুনরাবৃত্তিমূলক প্যাটার্ন) ডুপ্লিকেট এবং প্রায়-ডুপ্লিকেট সক্রিয়ভাবে ব্লক করুন। "ভবিষ্যতের" তথ্য টাইমস্ট্যাম্প বা পোস্ট-ইভেন্ট ফিল্ডের মাধ্যমে ইনপুটগুলিতে স্লিপ করে যেখানে বৈশিষ্ট্য ফাঁসের জন্য সতর্ক থাকুন। একটি শক্তিশালী বেসলাইন (এমনকি ডামি অনুমানকারী) আপনাকে লক্ষ্য করতে সাহায্য করে যখন আপনি শব্দ উদযাপন করছেন।.
পরিবর্তনের মধ্যেও পরীক্ষাগুলি পুনরাবৃত্তিযোগ্য থাকার জন্য মূল্যায়নের জোতাতে কী অন্তর্ভুক্ত থাকা উচিত
একটি ব্যবহারিক হারনেস একই ডেটাসেট এবং স্কোরিং নিয়ম ব্যবহার করে প্রতিটি মডেল, প্রম্পট, বা নীতি পরিবর্তনের উপর তুলনামূলক পরীক্ষা পুনরায় চালায়। এতে সাধারণত একটি রিগ্রেশন স্যুট, স্পষ্ট মেট্রিক্স ড্যাশবোর্ড এবং ট্রেসেবিলিটির জন্য সংরক্ষিত কনফিগারেশন এবং আর্টিফ্যাক্ট অন্তর্ভুক্ত থাকে। LLM সিস্টেমের জন্য, এটির জন্য প্রম্পটের একটি স্থিতিশীল "সোনালী সেট" এবং একটি এজ-কেস প্যাক প্রয়োজন। লক্ষ্য হল "বোতাম টিপুন → তুলনামূলক ফলাফল", "নোটবুক পুনরায় চালান এবং প্রার্থনা করুন" নয়।
নির্ভুলতার বাইরে AI মডেল পরীক্ষা করার জন্য মেট্রিক্স
একাধিক মেট্রিক্স ব্যবহার করুন, কারণ একটি একক সংখ্যা গুরুত্বপূর্ণ ট্রেড-অফ গোপন করতে পারে। শ্রেণীবিভাগের জন্য, থ্রেশহোল্ড টিউনিং এবং সেগমেন্ট অনুসারে বিভ্রান্তি ম্যাট্রিক্সের সাথে নির্ভুলতা/রিকল/F1 যুক্ত করুন। রিগ্রেশনের জন্য, আপনি কীভাবে ত্রুটিগুলি দণ্ডিত করতে চান তার উপর ভিত্তি করে MAE বা RMSE বেছে নিন এবং আউটপুটগুলি স্কোরের মতো কাজ করলে ক্যালিব্রেশন-স্টাইল চেক যোগ করুন। র্যাঙ্কিংয়ের জন্য, অসম কর্মক্ষমতা ধরার জন্য NDCG/MAP/MRR এবং স্লাইস বাই হেড বনাম টেল কোয়েরি ব্যবহার করুন।.
স্বয়ংক্রিয় মেট্রিক্স কম হলে LLM আউটপুট মূল্যায়ন করা
এটিকে কেবল টেক্সট সাদৃশ্য নয়, বরং একটি প্রম্পট-এন্ড-পলিসি সিস্টেম এবং স্কোরের আচরণ হিসেবে বিবেচনা করুন। অনেক দল মানুষের মূল্যায়নকে জোড়া অনুসারে পছন্দ (A/B জয়ের হার) এর সাথে একত্রিত করে, এবং "এটি কি সঠিক ক্ষেত্রগুলি বের করেছে" বা "এটি কি নীতি অনুসরণ করেছে" এর মতো টাস্ক-ভিত্তিক পরীক্ষাও করে। স্বয়ংক্রিয় টেক্সট মেট্রিক্স সংকীর্ণ ক্ষেত্রে সাহায্য করতে পারে, তবে ব্যবহারকারীরা প্রায়শই কী সম্পর্কে আগ্রহী তা তারা মিস করে। স্পষ্ট রুব্রিক এবং একটি রিগ্রেশন স্যুট সাধারণত একটি একক স্কোরের চেয়ে বেশি গুরুত্বপূর্ণ।.
মডেলটি যাতে শব্দের ইনপুটগুলিতে ভেঙে না যায় তার জন্য দৃঢ়তা পরীক্ষা চালানো হবে
টাইপো, অনুপস্থিত মান, অদ্ভুত ফর্ম্যাটিং এবং অ-মানক ইউনিকোড ব্যবহার করে মডেলটিকে চাপ দিন, কারণ প্রকৃত ব্যবহারকারীরা খুব কমই পরিপাটি হন। নতুন বিভাগ, স্ল্যাং, সেন্সর বা ভাষার ধরণগুলির মতো বিতরণ পরিবর্তনের কেস যুক্ত করুন। ভঙ্গুর আচরণের জন্য চরম মান (খালি স্ট্রিং, বিশাল পেলোড, পরিসরের বাইরের সংখ্যা) অন্তর্ভুক্ত করুন। LLM-এর জন্য, প্রম্পট ইনজেকশন প্যাটার্ন এবং টাইমআউট বা আংশিক আউটপুটগুলির মতো সরঞ্জাম-ব্যবহারের ব্যর্থতাও পরীক্ষা করুন।.
তত্ত্বের ফাঁকে ফাঁকে পক্ষপাত এবং ন্যায্যতার সমস্যাগুলি পরীক্ষা করা
অর্থপূর্ণ স্লাইসের উপর কর্মক্ষমতা মূল্যায়ন করুন এবং ত্রুটির হার এবং ক্রমাঙ্কন তুলনা করুন যেখানে এটি পরিমাপ করা আইনত এবং নীতিগতভাবে উপযুক্ত। প্রক্সি বৈশিষ্ট্যগুলি (যেমন জিপ কোড, ডিভাইসের ধরণ, বা ভাষা) সন্ধান করুন যা সংবেদনশীল বৈশিষ্ট্যগুলিকে পরোক্ষভাবে এনকোড করতে পারে। একটি মডেল "সামগ্রিকভাবে সঠিক" দেখাতে পারে যদিও নির্দিষ্ট কোহর্টের জন্য ধারাবাহিকভাবে ব্যর্থ হয়। আপনি কী পরিমাপ করেছেন এবং কী করেননি তা নথিভুক্ত করুন, যাতে ভবিষ্যতের পরিবর্তনগুলি নীরবে রিগ্রেশন পুনরায় চালু না করে।.
জেনারেটিভ এআই এবং এলএলএম সিস্টেমের জন্য নিরাপত্তা এবং সুরক্ষা পরীক্ষা অন্তর্ভুক্ত করা হবে
অননুমোদিত কন্টেন্ট তৈরি, গোপনীয়তা ফাঁস, উচ্চ-স্তরের ডোমেনে হ্যালুসিনেশন এবং অতিরিক্ত প্রত্যাখ্যানের জন্য পরীক্ষা করুন যেখানে মডেলটি স্বাভাবিক অনুরোধগুলিকে ব্লক করে। প্রম্পট ইনজেকশন এবং ডেটা এক্সফিল্ট্রেশন প্রচেষ্টা অন্তর্ভুক্ত করুন, বিশেষ করে যখন সিস্টেমটি সরঞ্জাম ব্যবহার করে বা সামগ্রী পুনরুদ্ধার করে। একটি ভিত্তিযুক্ত কর্মপ্রবাহ হল: নীতি নিয়মগুলি সংজ্ঞায়িত করুন, একটি পরীক্ষার প্রম্পট সেট তৈরি করুন, মানব প্লাস স্বয়ংক্রিয় চেক দিয়ে স্কোর করুন এবং প্রম্পট, ডেটা বা নীতি পরিবর্তন হলে এটি পুনরায় চালান। ধারাবাহিকতা হল আপনার প্রদত্ত ভাড়া।.
লঞ্চের পর ড্রিফট এবং ঘটনা ধরার জন্য AI মডেলগুলি চালু করা এবং পর্যবেক্ষণ করা
আপনার সম্পূর্ণ ব্যবহারকারী বেসের ব্যর্থতা খুঁজে বের করার আগে, শ্যাডো মোড এবং ধীরে ধীরে ট্র্যাফিক র্যাম্পের মতো পর্যায়ক্রমে রোলআউট প্যাটার্ন ব্যবহার করুন। ইনপুট ড্রিফ্ট (স্কিমা পরিবর্তন, অনুপস্থিতি, বিতরণ পরিবর্তন) এবং আউটপুট ড্রিফ্ট (স্কোর পরিবর্তন, শ্রেণীর ভারসাম্য পরিবর্তন) এবং ল্যাটেন্সি এবং খরচের মতো অপারেশনাল স্বাস্থ্য পর্যবেক্ষণ করুন। সম্পাদনা, বৃদ্ধি এবং অভিযোগের মতো প্রতিক্রিয়া সংকেত ট্র্যাক করুন এবং সেগমেন্ট-স্তরের রিগ্রেশনগুলি দেখুন। যখন কিছু পরিবর্তন হয়, তখন একই হারনেস পুনরায় চালান এবং ক্রমাগত পর্যবেক্ষণ চালিয়ে যান।.
তথ্যসূত্র
[1] NIST - কৃত্রিম বুদ্ধিমত্তা ঝুঁকি ব্যবস্থাপনা কাঠামো (AI RMF 1.0) (PDF)
[2] মিচেল এবং অন্যান্য - "মডেল রিপোর্টিংয়ের জন্য মডেল কার্ড" (arXiv:1810.03993)
[3] গেব্রু এবং অন্যান্য - "ডেটাসেটের জন্য ডেটাশিট" (arXiv:1803.09010)
[4] scikit-learn - "মডেল নির্বাচন এবং মূল্যায়ন" ডকুমেন্টেশন
[5] লিয়াং এবং অন্যান্য - "ভাষা মডেলের সামগ্রিক মূল্যায়ন" (arXiv:2211.09110)