এআই পারফরম্যান্স কীভাবে পরিমাপ করবেন?

আপনি যদি কখনও এমন কোনো মডেল তৈরি করে থাকেন যা নোটবুকে চমৎকার কাজ করলেও বাস্তবে উৎপাদনে গিয়ে হোঁচট খেয়েছে, তাহলে আপনি এর রহস্যটি ইতিমধ্যেই জানেন: এআই-এর কর্মক্ষমতা পরিমাপ করা কোনো একটি জাদুকরী মাপকাঠি নয়। এটি বাস্তব জগতের লক্ষ্যের সাথে যুক্ত বিভিন্ন যাচাই পদ্ধতির একটি ব্যবস্থা। নির্ভুলতা একটি আকর্ষণীয় বিষয়। নির্ভরযোগ্যতা, নিরাপত্তা এবং ব্যবসায়িক প্রভাব আরও ভালো।

এর পরে আপনি যে প্রবন্ধগুলি পড়তে পছন্দ করতে পারেন:

🔗 এআই-এর সাথে কীভাবে কথা বলবেন
ধারাবাহিকভাবে ভালো ফলাফলের জন্য AI-এর সাথে কার্যকরভাবে যোগাযোগের নির্দেশিকা।

🔗 এআই কী প্রম্পট করছে?
ব্যাখ্যা করে কিভাবে প্রম্পটগুলি AI প্রতিক্রিয়া এবং আউটপুট গুণমানকে গঠন করে।

🔗 এআই ডেটা লেবেলিং কী?
প্রশিক্ষণ মডেলের জন্য ডেটাতে সঠিক লেবেল বরাদ্দের সারসংক্ষেপ।

🔗 এআই নীতিশাস্ত্র কী?
দায়িত্বশীল AI উন্নয়ন এবং স্থাপনার নির্দেশনা প্রদানকারী নৈতিক নীতিগুলির ভূমিকা।

ভালো AI কর্মক্ষমতা কী করে তৈরি হয়? ✅

সংক্ষিপ্ত সংস্করণ: ভালো AI কর্মক্ষমতা মানে আপনার সিস্টেমটি কার্যকর, বিশ্বাসযোগ্য এবং অগোছালো, পরিবর্তনশীল পরিস্থিতিতে পুনরাবৃত্তিযোগ্য। সুনির্দিষ্টভাবে:

কাজের মান - এটি সঠিক কারণে সঠিক উত্তর পায়।
ক্রমাঙ্কন - আত্মবিশ্বাসের স্কোর বাস্তবতার সাথে মিলে যায়, তাই আপনি বুদ্ধিমানের সাথে পদক্ষেপ নিতে পারেন।
দৃঢ়তা - এটি ড্রিফট, এজ কেস এবং অ্যাডভারসারিয়াল ফাজের মধ্যেও টিকে থাকে।
নিরাপত্তা ও ন্যায্যতা - এটি ক্ষতিকর, পক্ষপাতমূলক বা নিয়মবহির্ভূত আচরণ পরিহার করে।
কার্যকারিতা - এটি বৃহৎ পরিসরে চালানোর জন্য যথেষ্ট দ্রুত, যথেষ্ট সাশ্রয়ী এবং যথেষ্ট স্থিতিশীল।
ব্যবসায়িক প্রভাব - এটি আসলে আপনার প্রিয় KPI-কে স্থানান্তরিত করে।

যদি আপনি মেট্রিক্স এবং ঝুঁকির সমন্বয়ের জন্য একটি আনুষ্ঠানিক রেফারেন্স পয়েন্ট চান, তাহলে NIST AI ঝুঁকি ব্যবস্থাপনা কাঠামো নির্ভরযোগ্য সিস্টেম মূল্যায়নের জন্য একটি শক্তিশালী উত্তর তারকা। [1]

AI কর্মক্ষমতা পরিমাপ করার জন্য উচ্চ-স্তরের রেসিপি 🍳

তিনটি স্তরে চিন্তা করুন :

টাস্ক মেট্রিক্স - টাস্কের ধরণের জন্য সঠিকতা: শ্রেণীবিভাগ, রিগ্রেশন, র‍্যাঙ্কিং, জেনারেশন, নিয়ন্ত্রণ ইত্যাদি।
সিস্টেম মেট্রিক্স - ল্যাটেন্সি, থ্রুপুট, প্রতি কল খরচ, ব্যর্থতার হার, ড্রিফ্ট অ্যালার্ম, আপটাইম SLA।
ফলাফলের মেট্রিক্স - আপনি আসলে যে ব্যবসা এবং ব্যবহারকারীর ফলাফল চান: রূপান্তর, ধরে রাখা, নিরাপত্তার ঘটনা, ম্যানুয়াল-পর্যালোচনা লোড, টিকিটের পরিমাণ।

একটি দুর্দান্ত পরিমাপ পরিকল্পনা ইচ্ছাকৃতভাবে তিনটিকেই একত্রিত করে। অন্যথায় আপনি এমন একটি রকেট পাবেন যা কখনও লঞ্চপ্যাড ছেড়ে যায় না।

সমস্যার ধরণ অনুসারে মূল মেট্রিক্স - এবং কখন কোনটি ব্যবহার করবেন 🎯

১) শ্রেণীবিভাগ

নির্ভুলতা, প্রত্যাহার, F1 - প্রথম দিনের ত্রয়ী। F1 হল নির্ভুলতা এবং প্রত্যাহারের সুরেলা গড়; যখন ক্লাসগুলি ভারসাম্যহীন থাকে বা খরচগুলি অসমমিত হয় তখন এটি কার্যকর। [2]
ROC-AUC - শ্রেণিবদ্ধকারীদের থ্রেশহোল্ড-অ্যাগনস্টিক র‍্যাঙ্কিং; যখন ইতিবাচক ফলাফল বিরল হয়, তখন PR-AUC। [2]
সুষম নির্ভুলতা - ক্লাস জুড়ে প্রত্যাহারের গড়; স্কিউ লেবেলের জন্য সুবিধাজনক। [2]

পিটফল ওয়াচ: ভারসাম্যহীনতার সাথে নির্ভুলতাই অত্যন্ত বিভ্রান্তিকর হতে পারে। যদি ৯৯% ব্যবহারকারী বৈধ হন, তাহলে একটি বোকা সর্বদা বৈধ মডেল ৯৯% স্কোর করে এবং দুপুরের খাবারের আগে আপনার জালিয়াতি দলকে ব্যর্থ করে।

২) রিগ্রেশন

মানুষের পাঠযোগ্য ভুলের জন্য MAE ; বড় ধরনের ভুলের জন্য RMSE ; এবং ব্যাখ্যা করা বৈচিত্র্যের জন্য R² । তারপর ডিস্ট্রিবিউশন এবং রেসিডুয়াল প্লটগুলির যৌক্তিকতা যাচাই করুন। [2] (ডোমেইন-বান্ধব একক ব্যবহার করুন যাতে স্টেকহোল্ডাররা আসলে ভুলটি অনুভব করতে পারে।)

৩) র‍্যাঙ্কিং, পুনরুদ্ধার, সুপারিশ

nDCG - অবস্থান এবং গ্রেডেড প্রাসঙ্গিকতার প্রতি যত্নশীল; অনুসন্ধানের মানের জন্য মান।
MRR - প্রথম প্রাসঙ্গিক আইটেমটি কত দ্রুত উপস্থিত হয় তার উপর দৃষ্টি নিবদ্ধ করে ("একটি ভাল উত্তর খুঁজুন" কাজের জন্য দুর্দান্ত)।
(বাস্তবায়ন রেফারেন্স এবং সমাধান করা উদাহরণগুলি মূলধারার মেট্রিক লাইব্রেরিতে রয়েছে।) [2]

৪) টেক্সট তৈরি এবং সারসংক্ষেপ

BLEU এবং ROUGE - ক্লাসিক ওভারল্যাপ মেট্রিক্স; বেসলাইন হিসেবে কার্যকর।
এম্বেডিং-ভিত্তিক মেট্রিক্স (যেমন, BERTScore) প্রায়শই মানুষের বিচার-বিবেচনার সাথে আরও ভালোভাবে সম্পর্কযুক্ত হয়; স্টাইল, বিশ্বস্ততা এবং নিরাপত্তার জন্য সর্বদা মানুষের রেটিংগুলির সাথে জুড়ি মেলান। [4]

৫) প্রশ্নের উত্তর

সঠিক মিল এবং টোকেন-স্তরের F1 সাধারণ; যদি উত্তরগুলিতে উৎস উল্লেখ করতে হয়, তাহলে গ্রাউন্ডিংও (উত্তর-সমর্থন পরীক্ষা)।

ক্রমাঙ্কন, আত্মবিশ্বাস, এবং ব্রিয়ার লেন্স 🎚️

আত্মবিশ্বাসের স্কোর হলো এমন একটি জায়গা যেখানে অনেক সিস্টেম চুপচাপ থাকে। আপনি এমন সম্ভাব্যতা চান যা বাস্তবতাকে প্রতিফলিত করে যাতে অপারেশনগুলি থ্রেশহোল্ড, মানুষের কাছে রুট বা মূল্য ঝুঁকি নির্ধারণ করতে পারে।

ক্রমাঙ্কন বক্ররেখা - পূর্বাভাসিত সম্ভাব্যতা বনাম অভিজ্ঞতামূলক ফ্রিকোয়েন্সি কল্পনা করুন।
ব্রায়ার স্কোর - সম্ভাব্যতা নির্ভুলতার জন্য একটি সঠিক স্কোরিং নিয়ম; মান যত কম, তত ভালো। এটি বিশেষত উপযোগী যখন আপনি কেবল ক্রমবিন্যাস নয়, সম্ভাবনার গুণমান সম্পর্কেও যত্নশীল হন। [3]

মাঠপর্যায়ের পর্যবেক্ষণ: সামান্য “খারাপ” এফ১ কিন্তু অনেক ভালো ক্যালিব্রেশন ব্যাপকভাবে উন্নত করতে পারে — কারণ মানুষ অবশেষে স্কোরগুলোর ওপর আস্থা রাখতে পারে।

নিরাপত্তা, পক্ষপাত এবং ন্যায্যতা - কী গুরুত্বপূর্ণ তা পরিমাপ করুন 🛡️⚖️

একটি সিস্টেম সামগ্রিকভাবে সঠিক হতে পারে এবং নির্দিষ্ট গোষ্ঠীর ক্ষতি করতে পারে। গোষ্ঠীবদ্ধ মেট্রিক্স এবং ন্যায্যতার মানদণ্ড ট্র্যাক করুন:

জনসংখ্যাতাত্ত্বিক সমতা - বিভিন্ন গোষ্ঠীতে সমান ধনাত্মক হার।
সমীকৃত সম্ভাবনা / সমান সুযোগ - গোষ্ঠী জুড়ে সমান ত্রুটির হার বা সঠিক-ইতিবাচক হার; এগুলি এককালীন পাস-ফেল স্ট্যাম্প হিসাবে নয়, বরং ট্রেড-অফগুলি সনাক্ত এবং পরিচালনা করতে ব্যবহার করুন। [5]

ব্যবহারিক পরামর্শ: ড্যাশবোর্ড দিয়ে শুরু করুন যা মূল বৈশিষ্ট্য অনুসারে মূল মেট্রিক্সগুলিকে বিভক্ত করে, তারপর আপনার নীতির প্রয়োজন অনুসারে নির্দিষ্ট ন্যায্যতা মেট্রিক্স যুক্ত করুন। এটি অস্পষ্ট শোনাচ্ছে, তবে এটি একটি ঘটনার চেয়ে সস্তা।

LLM এবং RAG - একটি পরিমাপের প্লেবুক যা আসলে কাজ করে 📚🔍

জেনারেটিভ সিস্টেম পরিমাপ করা... ঝামেলাপূর্ণ। এটা করো:

ব্যবহারের ক্ষেত্রে ফলাফল নির্ধারণ করুন : সঠিকতা, সহায়কতা, নিরীহতা, শৈলী আনুগত্য, ব্র্যান্ডের উপর নির্ভরশীলতা, উদ্ধৃতি ভিত্তি, প্রত্যাখ্যানের গুণমান।
শক্তিশালী ফ্রেমওয়ার্ক (যেমন, আপনার স্ট্যাকে মূল্যায়ন টুলিং) দিয়ে বেসলাইন মূল্যায়ন স্বয়ংক্রিয় করুন এবং আপনার ডেটাসেটের সাথে সেগুলিকে সংস্করণযুক্ত রাখুন।
শব্দার্থিক মেট্রিক্স (এম্বেডিং-ভিত্তিক) এবং ওভারল্যাপ মেট্রিক্স (BLEU/ROUGE) যোগ করুন। [4]
যন্ত্রের গ্রাউন্ডিং : পুনরুদ্ধার হিট রেট, প্রসঙ্গ নির্ভুলতা/প্রত্যাহার, উত্তর-সমর্থন ওভারল্যাপ।
সম্মতিসহ মানবিক পর্যালোচনা - মূল্যায়নকারীর সামঞ্জস্য পরিমাপ করুন (যেমন, কোহেনের κ বা ফ্লেসের κ), যাতে আপনার লেবেলগুলো নিছক ধারণা বা অনুভূতির ওপর ভিত্তি করে না হয়।

বোনাস: ল্যাটেন্সি পার্সেন্টাইল এবং টোকেন লগ করুন অথবা প্রতি টাস্কের খরচ গণনা করুন। আগামী মঙ্গলবার আসা কাব্যিক উত্তর কেউ পছন্দ করে না।

তুলনা সারণী - এমন সরঞ্জাম যা আপনাকে AI কর্মক্ষমতা পরিমাপ করতে সাহায্য করে 🛠️📊

(হ্যাঁ, ইচ্ছাকৃতভাবে একটু এলোমেলো - আসল নোটগুলো এলোমেলো।)

টুল	সেরা দর্শক	দাম	কেন এটি কাজ করে - দ্রুত নিন
সাইকিট-লার্ন মেট্রিক্স	এমএল অনুশীলনকারীরা	বিনামূল্যে	শ্রেণীবিভাগ, রিগ্রেশন, র‍্যাঙ্কিংয়ের জন্য ক্যানোনিকাল বাস্তবায়ন; পরীক্ষায় পরিণত করা সহজ। [2]
MLflow মূল্যায়ন / GenAI	ডেটা বিজ্ঞানী, এমএলওপিএস	বিনামূল্যে + অর্থপ্রদান	কেন্দ্রীভূত রান, স্বয়ংক্রিয় মেট্রিক্স, এলএলএম বিচারক, কাস্টম স্কোরার; পরিষ্কারভাবে শিল্পকর্ম লগ করে।
স্পষ্টতই	দলগুলো দ্রুত ড্যাশবোর্ড চায়	ওএসএস + ক্লাউড	১০০+ মেট্রিক্স, ড্রিফট এবং কোয়ালিটি রিপোর্ট, মনিটরিং হুক - এক চিমটেই চমৎকার ভিজ্যুয়াল।
ওজন এবং পক্ষপাত	পরীক্ষা-প্রধান সংস্থাগুলি	বিনামূল্যে স্তর	পাশাপাশি তুলনা, মূল্যায়ন ডেটাসেট, বিচারক; টেবিল এবং ট্রেসগুলি পরিপাটি।
ল্যাংস্মিথ	এলএলএম অ্যাপ নির্মাতারা	পরিশোধিত	প্রতিটি ধাপ অনুসরণ করুন, নিয়ম বা LLM মূল্যায়নকারীদের সাথে মানব পর্যালোচনা মিশ্রিত করুন; RAG-এর জন্য দুর্দান্ত।
ট্রুলেন্স	ওপেন-সোর্স এলএলএম ইভাল প্রেমীরা	ওএসএস	প্রতিক্রিয়া ফাংশনগুলি বিষাক্ততা, ভিত্তিগততা, প্রাসঙ্গিকতা স্কোর করে; যেকোনো জায়গায় একীভূত করে।
মহান প্রত্যাশা	ডেটা কোয়ালিটি-ফার্স্ট সংস্থাগুলি	ওএসএস	তথ্যের উপর প্রত্যাশাকে আনুষ্ঠানিক করুন - কারণ খারাপ তথ্য যেকোনোভাবেই হোক প্রতিটি মেট্রিককে নষ্ট করে দেয়।
ডিপচেকস	ML এর জন্য পরীক্ষা এবং CI/CD	ওএসএস + ক্লাউড	ডেটা ড্রিফট, মডেল সমস্যা এবং পর্যবেক্ষণের জন্য ব্যাটারি-অন্তর্ভুক্ত পরীক্ষা; ভালো রেলিং।

দাম পরিবর্তন হয় - ডকুমেন্টগুলি পরীক্ষা করে দেখুন। এবং হ্যাঁ, আপনি টুল পুলিশ না দেখিয়েই এগুলি মিশ্রিত করতে পারেন।

থ্রেশহোল্ড, খরচ এবং সিদ্ধান্তের বক্ররেখা - গোপন সস 🧪

অদ্ভুত কিন্তু সত্য কথা: একই ROC-AUC সহ দুটি মডেলের ব্যবসায়িক মূল্য আপনার থ্রেশহোল্ড এবং খরচ অনুপাতের।

দ্রুত তৈরির জন্য শিট:

একটি মিথ্যা পজিটিভ বনাম মিথ্যা নেগেটিভের খরচ টাকা বা সময়ের মধ্যে নির্ধারণ করুন।
প্রতি ১ হাজার সিদ্ধান্তের জন্য প্রত্যাশিত খরচ গণনা করে থ্রেশহোল্ডগুলি পরিষ্কার করুন।
ন্যূনতম প্রত্যাশিত খরচের সীমা বেছে নিন , তারপর পর্যবেক্ষণের মাধ্যমে এটি লক করুন।

যখন ধনাত্মক সংখ্যা বিরল হয় তখন PR বক্ররেখা ব্যবহার করুন, সাধারণ আকৃতির জন্য ROC বক্ররেখা ব্যবহার করুন এবং যখন সিদ্ধান্তগুলি সম্ভাব্যতার উপর নির্ভর করে তখন ক্রমাঙ্কন বক্ররেখা ব্যবহার করুন। [2][3]

সংক্ষিপ্ত কেস স্টাডি: একটি সাপোর্ট-টিকেট ট্রায়েজ মডেল, যার F1 রেট মাঝারি হলেও ক্যালিব্রেশন চমৎকার ছিল, সেটি ম্যানুয়াল রি-রাউটের সংখ্যা কমিয়ে দেয়। এই মডেলটি তৈরি হয় যখন অপারেটররা একটি হার্ড থ্রেশহোল্ড থেকে ক্যালিব্রেটেড স্কোর ব্যান্ডের সাথে যুক্ত স্তরভিত্তিক রাউটিং (যেমন, “অটো-রিজলভ,” “হিউম্যান-রিভিউ,” “এসকালেট”) পদ্ধতিতে পরিবর্তিত হয়।

অনলাইন পর্যবেক্ষণ, প্রবাহ এবং সতর্কতা 🚨

অফলাইন মূল্যায়নই শুরু, শেষ নয়। উৎপাদনে:

সেগমেন্ট অনুসারে ইনপুট ড্রিফট , আউটপুট ড্রিফট এবং পারফরম্যান্স ক্ষয় ট্র্যাক করুন ।
রেলিং পরীক্ষা সেট করুন - সর্বাধিক হ্যালুসিনেশন হার, বিষাক্ততার থ্রেশহোল্ড, ফেয়ারনেস ডেল্টা।
p95 ল্যাটেন্সি, টাইমআউট এবং প্রতি অনুরোধের খরচের জন্য ক্যানারি ড্যাশবোর্ড যোগ করুন ।
এটিকে দ্রুততর করার জন্য উদ্দেশ্য-নির্মিত লাইব্রেরি ব্যবহার করুন; তারা বাক্সের বাইরে ড্রিফ্ট, গুণমান এবং পর্যবেক্ষণের আদিমতা অফার করে।

একটি ছোট ত্রুটিপূর্ণ রূপক: আপনার মডেলটিকে একটি সাওয়ারডো স্টার্টারের মতো ভাবুন - আপনি শুধু একবার বেক করে চলে যান না; আপনি একে খাবার দেন, পর্যবেক্ষণ করেন, এর গন্ধ নেন এবং কখনও কখনও পুনরায় শুরু করেন।

মানবিক মূল্যায়ন যা ভেঙে পড়ে না 🍪

যখন মানুষ ফলাফল মূল্যায়ন করে, তখন প্রক্রিয়াটি আপনার ধারণার চেয়েও বেশি গুরুত্বপূর্ণ।

পাস বনাম বর্ডারলাইন বনাম ফেলের উদাহরণ সহ সংক্ষিপ্ত রুব্রিক লিখুন ।
যখনই সম্ভব নমুনাগুলি এলোমেলোভাবে এবং অন্ধ করে দিন।
মূল্যায়নকারীদের মধ্যকার মতৈক্য পরিমাপ করুন (যেমন, দুজন মূল্যায়নকারীর জন্য কোহেনের κ, অনেকের জন্য ফ্লেসের κ) এবং মতৈক্য কমে গেলে মূল্যায়ন নির্দেশিকা হালনাগাদ করুন।

এটি আপনার মানব লেবেলগুলিকে মেজাজ বা কফি সরবরাহের সাথে ভেসে যাওয়া থেকে বিরত রাখে।

গভীর বিশ্লেষণ: RAG পদ্ধতিতে LLM-এর জন্য AI পারফরম্যান্স কীভাবে পরিমাপ করবেন 🧩

পুনরুদ্ধারের মান - recall@k, precision@k, nDCG; সোনার তথ্যের কভারেজ। [2]
উত্তরের বিশ্বস্ততা - উদ্ধৃতি-এবং-যাচাই চেক, গ্রাউন্ডেডনেস স্কোর, প্রতিপক্ষ প্রোব।
ব্যবহারকারীর সন্তুষ্টি - থাম্বস, কাজ সমাপ্তি, প্রস্তাবিত খসড়া থেকে সম্পাদনার দূরত্ব।
নিরাপত্তা - বিষাক্ততা, PII লিকেজ, নীতি সম্মতি।
খরচ ও লেটেন্সি - টোকেন, ক্যাশে হিট, পি৯৫ এবং পি৯৯ লেটেন্সি।

এগুলিকে ব্যবসায়িক ক্রিয়াকলাপের সাথে সংযুক্ত করুন: যদি ভিত্তিহীনতা একটি লাইনের নিচে নেমে যায়, তাহলে স্বয়ংক্রিয়ভাবে কঠোর মোড বা মানব পর্যালোচনার দিকে যান।

আজই শুরু করার জন্য একটি সহজ খেলার বই 🪄

কাজের সংজ্ঞা দাও - একটি বাক্য লেখ: AI-কে কী করতে হবে এবং কার জন্য?
2–3টি টাস্ক মেট্রিক বেছে নিন - সাথে ক্যালিব্রেশন এবং অন্তত একটি ফেয়ারনেস স্লাইস। [2][3][5]
খরচের ভিত্তিতে সীমা নির্ধারণ করুন - অনুমান করবেন না।
একটি ছোট মূল্যায়ন সেট তৈরি করুন – এতে ১০০-৫০০টি লেবেলযুক্ত উদাহরণ থাকবে যা উৎপাদন মিশ্রণকে প্রতিফলিত করে।
আপনার মূল্যায়ন স্বয়ংক্রিয় করুন - CI তে তারের মূল্যায়ন/মনিটরিং যাতে প্রতিটি পরিবর্তন একই পরীক্ষা চালায়।
প্রোড-এ মনিটর করুন - ড্রিফ্ট, ল্যাটেন্সি, খরচ, ইনসিডেন্ট ফ্ল্যাগ।
মাসিক-ইশ - প্রুন মেট্রিক্স পর্যালোচনা করুন যা কেউ ব্যবহার করে না; এমন মেট্রিক্স যোগ করুন যা প্রকৃত প্রশ্নের উত্তর দেয়।
নথির সিদ্ধান্ত - একটি জীবন্ত স্কোরকার্ড যা আপনার দল আসলে পড়ে।

হ্যাঁ, আক্ষরিক অর্থেই তাই। আর এটা কাজ করে।

সাধারণ ফাঁদ এবং কীভাবে এড়ানো যায় 🕳️🐇

একটি একক মেট্রিকের সাথে ওভারফিটিং - সিদ্ধান্তের প্রেক্ষাপটের সাথে মেলে এমন একটি মেট্রিক বাস্কেট ব্যবহার করুন। [1][2]
ক্রমাঙ্কন উপেক্ষা করা - ক্রমাঙ্কন ছাড়া আত্মবিশ্বাস কেবলই অহংকার। [3]
কোনও বিভাগ নেই - সর্বদা ব্যবহারকারী গোষ্ঠী, ভূগোল, ডিভাইস, ভাষা অনুসারে স্লাইস করুন। [5]
অনির্ধারিত খরচ - যদি আপনি ভুলের মূল্য নির্ধারণ না করেন, তাহলে আপনি ভুল থ্রেশহোল্ড বেছে নেবেন।
মানুষের মূল্যায়ন প্রবাহ - চুক্তি পরিমাপ করুন, রুব্রিকগুলি রিফ্রেশ করুন, পর্যালোচকদের পুনরায় প্রশিক্ষণ দিন।
কোনও সুরক্ষা উপকরণ নেই - ন্যায্যতা, বিষাক্ততা এবং নীতি পরীক্ষা এখনই যোগ করুন, পরে নয়। [1][5]

তুমি যে বাক্যাংশটির জন্য এসেছ: AI কর্মক্ষমতা কীভাবে পরিমাপ করা যায় - "খুব দীর্ঘ, আমি এটি পড়িনি" 🧾

স্পষ্ট ফলাফল দিয়ে শুরু করুন , তারপর টাস্ক , সিস্টেম এবং ব্যবসায়িক মেট্রিক্স স্ট্যাক করুন। [1]
কাজের জন্য সঠিক মেট্রিক্স ব্যবহার করুন - শ্রেণীবিভাগের জন্য F1 এবং ROC-AUC; র‍্যাঙ্কিংয়ের জন্য nDCG/MRR; প্রজন্মের জন্য ওভারল্যাপ + সিমেন্টিক মেট্রিক্স (মানুষের সাথে জোড়া)। [2][4]
ক্যালিব্রেট করো এবং তোমার ত্রুটিগুলি নির্ধারণ করে থ্রেশহোল্ড বেছে নাও। [2][3]
গ্রুপ স্লাইসের সাথে ন্যায্যতা যাচাই যোগ করুন এবং স্পষ্টভাবে লেনদেন পরিচালনা করুন। [5]
স্বয়ংক্রিয় মূল্যায়ন এবং পর্যবেক্ষণ করুন যাতে আপনি ভয় ছাড়াই পুনরাবৃত্তি করতে পারেন।

তুমি জানো এটা কেমন - কোনটা গুরুত্বপূর্ণ তা পরিমাপ করো, নাহলে তুমি যা গুরুত্বপূর্ণ তা উন্নত করবে।

তথ্যসূত্র

[1] NIST. AI ঝুঁকি ব্যবস্থাপনা কাঠামো (AI RMF). আরও পড়ুন
[2] scikit-learn. মডেল মূল্যায়ন: ভবিষ্যদ্বাণীর গুণমান পরিমাপ (ব্যবহারকারী নির্দেশিকা). আরও পড়ুন
[3] scikit-learn. সম্ভাব্যতা ক্রমাঙ্কন (ক্রমাঙ্কন বক্ররেখা, ব্রায়ার স্কোর). আরও পড়ুন
[4] পাপিনেনি প্রমুখ (2002). BLEU: মেশিন অনুবাদের স্বয়ংক্রিয় মূল্যায়নের একটি পদ্ধতি. ACL. আরও পড়ুন
[5] হার্ডট, প্রাইস, স্রেব্রো (2016). সুপারভাইজড লার্নিং-এ সুযোগের সমতা. NeurIPS. আরও পড়ুন

অফিসিয়াল এআই অ্যাসিস্ট্যান্ট স্টোরে সর্বশেষ এআই খুঁজুন

আমাদের সম্পর্কে

ব্লগে ফিরে যান