যদি আপনি কখনও এমন কোনও মডেল পাঠিয়ে থাকেন যা নোটবুকে চমকে ওঠে কিন্তু উৎপাদনে হোঁচট খায়, তাহলে আপনি ইতিমধ্যেই রহস্যটি জানেন: AI কর্মক্ষমতা কীভাবে পরিমাপ করা যায় তা কোনও জাদুর মেট্রিক নয়। এটি বাস্তব-বিশ্বের লক্ষ্যগুলির সাথে সম্পর্কিত চেকের একটি সিস্টেম। নির্ভুলতা সুন্দর। নির্ভরযোগ্যতা, নিরাপত্তা এবং ব্যবসায়িক প্রভাব আরও ভালো।
এর পরে আপনি যে প্রবন্ধগুলি পড়তে পছন্দ করতে পারেন:
🔗 এআই-এর সাথে কীভাবে কথা বলবেন
ধারাবাহিকভাবে ভালো ফলাফলের জন্য AI-এর সাথে কার্যকরভাবে যোগাযোগের নির্দেশিকা।
🔗 এআই কী প্রম্পট করছে?
ব্যাখ্যা করে কিভাবে প্রম্পটগুলি AI প্রতিক্রিয়া এবং আউটপুট গুণমানকে গঠন করে।
🔗 এআই ডেটা লেবেলিং কী?
প্রশিক্ষণ মডেলের জন্য ডেটাতে সঠিক লেবেল বরাদ্দের সারসংক্ষেপ।
🔗 এআই নীতিশাস্ত্র কী?
দায়িত্বশীল AI উন্নয়ন এবং স্থাপনার নির্দেশনা প্রদানকারী নৈতিক নীতিগুলির ভূমিকা।
ভালো AI কর্মক্ষমতা কী করে তৈরি হয়? ✅
সংক্ষিপ্ত সংস্করণ: ভালো AI কর্মক্ষমতা মানে আপনার সিস্টেমটি কার্যকর, বিশ্বাসযোগ্য এবং অগোছালো, পরিবর্তনশীল পরিস্থিতিতে পুনরাবৃত্তিযোগ্য। সুনির্দিষ্টভাবে:
-
কাজের মান - এটি সঠিক কারণে সঠিক উত্তর পায়।
-
ক্রমাঙ্কন - আত্মবিশ্বাসের স্কোর বাস্তবতার সাথে মিলে যায়, তাই আপনি বুদ্ধিমানের সাথে পদক্ষেপ নিতে পারেন।
-
দৃঢ়তা - এটি ড্রিফট, এজ কেস এবং অ্যাডভারসারিয়াল ফাজের মধ্যেও টিকে থাকে।
-
নিরাপত্তা ও ন্যায্যতা - এটি ক্ষতিকারক, পক্ষপাতদুষ্ট, বা অ-সম্মতিমূলক আচরণ এড়িয়ে চলে।
-
দক্ষতা - এটি যথেষ্ট দ্রুত, যথেষ্ট সস্তা এবং স্কেলে চালানোর জন্য যথেষ্ট স্থিতিশীল।
-
ব্যবসায়িক প্রভাব - এটি আসলে আপনার প্রিয় KPI-কে স্থানান্তরিত করে।
যদি আপনি মেট্রিক্স এবং ঝুঁকির সমন্বয়ের জন্য একটি আনুষ্ঠানিক রেফারেন্স পয়েন্ট চান, তাহলে NIST AI ঝুঁকি ব্যবস্থাপনা কাঠামো নির্ভরযোগ্য সিস্টেম মূল্যায়নের জন্য একটি শক্তিশালী উত্তর তারকা। [1]

AI কর্মক্ষমতা পরিমাপ করার জন্য উচ্চ-স্তরের রেসিপি 🍳
তিনটি স্তরে চিন্তা করুন :
-
টাস্ক মেট্রিক্স - টাস্কের ধরণের জন্য সঠিকতা: শ্রেণীবিভাগ, রিগ্রেশন, র্যাঙ্কিং, জেনারেশন, নিয়ন্ত্রণ ইত্যাদি।
-
সিস্টেম মেট্রিক্স - ল্যাটেন্সি, থ্রুপুট, প্রতি কল খরচ, ব্যর্থতার হার, ড্রিফ্ট অ্যালার্ম, আপটাইম SLA।
-
ফলাফলের মেট্রিক্স - আপনি আসলে যে ব্যবসা এবং ব্যবহারকারীর ফলাফল চান: রূপান্তর, ধরে রাখা, নিরাপত্তার ঘটনা, ম্যানুয়াল-পর্যালোচনা লোড, টিকিটের পরিমাণ।
একটি দুর্দান্ত পরিমাপ পরিকল্পনা ইচ্ছাকৃতভাবে তিনটিকেই একত্রিত করে। অন্যথায় আপনি এমন একটি রকেট পাবেন যা কখনও লঞ্চপ্যাড ছেড়ে যায় না।
সমস্যার ধরণ অনুসারে মূল মেট্রিক্স - এবং কখন কোনটি ব্যবহার করবেন 🎯
১) শ্রেণীবিভাগ
-
নির্ভুলতা, প্রত্যাহার, F1 - প্রথম দিনের ত্রয়ী। F1 হল নির্ভুলতা এবং প্রত্যাহারের সুরেলা গড়; যখন ক্লাসগুলি ভারসাম্যহীন থাকে বা খরচগুলি অসমমিত হয় তখন এটি কার্যকর। [2]
-
ROC-AUC - শ্রেণিবদ্ধকারীদের থ্রেশহোল্ড-অ্যাগনস্টিক র্যাঙ্কিং; যখন ইতিবাচক ফলাফল বিরল হয়, তখন PR-AUC । [2]
-
সুষম নির্ভুলতা - ক্লাস জুড়ে প্রত্যাহারের গড়; স্কিউ লেবেলের জন্য সুবিধাজনক। [2]
পিটফল ওয়াচ: ভারসাম্যহীনতার সাথে নির্ভুলতাই অত্যন্ত বিভ্রান্তিকর হতে পারে। যদি ৯৯% ব্যবহারকারী বৈধ হন, তাহলে একটি বোকা সর্বদা বৈধ মডেল ৯৯% স্কোর করে এবং দুপুরের খাবারের আগে আপনার জালিয়াতি দলকে ব্যর্থ করে।
২) রিগ্রেশন
-
মানুষের সুস্পষ্ট ত্রুটির জন্য MAE বড় ভুলের শাস্তি দিতে চাইলে RMSE R² ব্যাখ্যা করা হয়েছে। তারপর স্যানিটি-চেক ডিস্ট্রিবিউশন এবং অবশিষ্ট প্লট। [2]
(ডোমেন-বান্ধব ইউনিট ব্যবহার করুন যাতে স্টেকহোল্ডাররা আসলে ত্রুটিটি অনুভব করতে পারে।)
৩) র্যাঙ্কিং, পুনরুদ্ধার, সুপারিশ
-
nDCG - অবস্থান এবং গ্রেডেড প্রাসঙ্গিকতার প্রতি যত্নশীল; অনুসন্ধানের মানের জন্য মান।
-
MRR - প্রথম প্রাসঙ্গিক আইটেমটি কত দ্রুত প্রদর্শিত হয় তার উপর দৃষ্টি নিবদ্ধ করে ("একটি ভাল উত্তর খুঁজুন" কাজের জন্য দুর্দান্ত)।
(বাস্তবায়নের রেফারেন্স এবং কার্যকর উদাহরণগুলি মূলধারার মেট্রিক লাইব্রেরিতে রয়েছে।) [2]
৪) টেক্সট তৈরি এবং সারসংক্ষেপ
-
BLEU এবং ROUGE - ক্লাসিক ওভারল্যাপ মেট্রিক্স; বেসলাইন হিসেবে কার্যকর।
-
এম্বেডিং-ভিত্তিক মেট্রিক্স (যেমন, BERTScore ) প্রায়শই মানুষের বিচার-বিবেচনার সাথে আরও ভালোভাবে সম্পর্কযুক্ত হয়; স্টাইল, বিশ্বস্ততা এবং নিরাপত্তার জন্য সর্বদা মানুষের রেটিংগুলির সাথে জুড়ি মেলান। [4]
৫) প্রশ্নের উত্তর
-
সঠিক মিল এবং টোকেন-স্তরের F1 সাধারণ; যদি উত্তরগুলিতে উৎস উল্লেখ করতে হয়, তাহলে গ্রাউন্ডিংও (উত্তর-সমর্থন পরীক্ষা)।
ক্রমাঙ্কন, আত্মবিশ্বাস, এবং ব্রিয়ার লেন্স 🎚️
আত্মবিশ্বাসের স্কোর হলো এমন একটি জায়গা যেখানে অনেক সিস্টেম চুপচাপ থাকে। আপনি এমন সম্ভাব্যতা চান যা বাস্তবতাকে প্রতিফলিত করে যাতে অপারেশনগুলি থ্রেশহোল্ড, মানুষের কাছে রুট বা মূল্য ঝুঁকি নির্ধারণ করতে পারে।
-
ক্রমাঙ্কন বক্ররেখা - পূর্বাভাসিত সম্ভাব্যতা বনাম অভিজ্ঞতামূলক ফ্রিকোয়েন্সি কল্পনা করুন।
-
ব্রিয়ার স্কোর - সম্ভাব্যতার নির্ভুলতার জন্য একটি সঠিক স্কোরিং নিয়ম; কম হলে ভালো। এটি বিশেষভাবে কার্যকর যখন আপনি কেবল র্যাঙ্কিং নয়, সম্ভাব্যতার মানের
ফিল্ড নোট: একটু "খারাপ" কিন্তু অনেক ভালো F1 ক্যালিব্রেশন ব্যাপকভাবে উন্নত করতে পারে - কারণ মানুষ অবশেষে স্কোরগুলিতে বিশ্বাস করতে পারে।
নিরাপত্তা, পক্ষপাত এবং ন্যায্যতা - কী গুরুত্বপূর্ণ তা পরিমাপ করুন 🛡️⚖️
একটি সিস্টেম সামগ্রিকভাবে সঠিক হতে পারে এবং নির্দিষ্ট গোষ্ঠীর ক্ষতি করতে পারে। গোষ্ঠীবদ্ধ মেট্রিক্স এবং ন্যায্যতার মানদণ্ড ট্র্যাক করুন:
-
জনসংখ্যাতাত্ত্বিক সমতা - বিভিন্ন গোষ্ঠীতে সমান ধনাত্মক হার।
-
সমান সম্ভাবনা / সমান সুযোগ - গ্রুপ জুড়ে সমান ত্রুটির হার বা সত্য-ধনাত্মক হার; ট্রেড-অফ সনাক্ত এবং পরিচালনা করতে এগুলি ব্যবহার করুন, এক-শট পাস-ব্যর্থ স্ট্যাম্প হিসাবে নয়। [5]
ব্যবহারিক পরামর্শ: ড্যাশবোর্ড দিয়ে শুরু করুন যা মূল বৈশিষ্ট্য অনুসারে মূল মেট্রিক্সগুলিকে বিভক্ত করে, তারপর আপনার নীতির প্রয়োজন অনুসারে নির্দিষ্ট ন্যায্যতা মেট্রিক্স যুক্ত করুন। এটি অস্পষ্ট শোনাচ্ছে, তবে এটি একটি ঘটনার চেয়ে সস্তা।
LLM এবং RAG - একটি পরিমাপের প্লেবুক যা আসলে কাজ করে 📚🔍
জেনারেটিভ সিস্টেম পরিমাপ করা... ঝামেলাপূর্ণ। এটা করো:
-
ব্যবহারের ক্ষেত্রে ফলাফল নির্ধারণ করুন
-
শক্তিশালী ফ্রেমওয়ার্ক (যেমন, আপনার স্ট্যাকে মূল্যায়ন টুলিং) দিয়ে বেসলাইন মূল্যায়ন স্বয়ংক্রিয় করুন
-
শব্দার্থিক মেট্রিক্স (এম্বেডিং-ভিত্তিক) এবং ওভারল্যাপ মেট্রিক্স (BLEU/ROUGE) যোগ করুন। [4]
-
যন্ত্রের গ্রাউন্ডিং : পুনরুদ্ধার হিট রেট, প্রসঙ্গ নির্ভুলতা/প্রত্যাহার, উত্তর-সমর্থন ওভারল্যাপ।
-
মানব পর্যালোচনার সাথে একমত - রেটারের ধারাবাহিকতা পরিমাপ করুন (যেমন, কোহেনের κ বা ফ্লেইসের κ) যাতে আপনার লেবেলগুলি ভাইব না হয়।
বোনাস: ল্যাটেন্সি পার্সেন্টাইল এবং টোকেন লগ করুন অথবা প্রতি টাস্কের খরচ গণনা করুন। আগামী মঙ্গলবার আসা কাব্যিক উত্তর কেউ পছন্দ করে না।
তুলনা সারণী - এমন সরঞ্জাম যা আপনাকে AI কর্মক্ষমতা পরিমাপ করতে সাহায্য করে 🛠️📊
(হ্যাঁ, ইচ্ছাকৃতভাবে একটু এলোমেলো - আসল নোটগুলো এলোমেলো।)
| টুল | সেরা দর্শক | দাম | কেন এটি কাজ করে - দ্রুত নিন |
|---|---|---|---|
| সাইকিট-লার্ন মেট্রিক্স | এমএল অনুশীলনকারীরা | বিনামূল্যে | শ্রেণীবিভাগ, রিগ্রেশন, র্যাঙ্কিংয়ের জন্য ক্যানোনিকাল বাস্তবায়ন; পরীক্ষায় পরিণত করা সহজ। [2] |
| MLflow মূল্যায়ন / GenAI | ডেটা বিজ্ঞানী, এমএলওপিএস | বিনামূল্যে + অর্থপ্রদান | কেন্দ্রীভূত রান, স্বয়ংক্রিয় মেট্রিক্স, এলএলএম বিচারক, কাস্টম স্কোরার; পরিষ্কারভাবে শিল্পকর্ম লগ করে। |
| স্পষ্টতই | দলগুলো দ্রুত ড্যাশবোর্ড চায় | ওএসএস + ক্লাউড | ১০০+ মেট্রিক্স, ড্রিফট এবং কোয়ালিটি রিপোর্ট, মনিটরিং হুক - এক চিমটেই চমৎকার ভিজ্যুয়াল। |
| ওজন এবং পক্ষপাত | পরীক্ষা-প্রধান সংস্থাগুলি | বিনামূল্যে স্তর | পাশাপাশি তুলনা, মূল্যায়ন ডেটাসেট, বিচারক; টেবিল এবং ট্রেসগুলি পরিপাটি। |
| ল্যাংস্মিথ | এলএলএম অ্যাপ নির্মাতারা | পরিশোধিত | প্রতিটি ধাপ অনুসরণ করুন, নিয়ম বা LLM মূল্যায়নকারীদের সাথে মানব পর্যালোচনা মিশ্রিত করুন; RAG-এর জন্য দুর্দান্ত। |
| ট্রুলেন্স | ওপেন-সোর্স এলএলএম ইভাল প্রেমীরা | ওএসএস | প্রতিক্রিয়া ফাংশনগুলি বিষাক্ততা, ভিত্তিগততা, প্রাসঙ্গিকতা স্কোর করে; যেকোনো জায়গায় একীভূত করে। |
| মহান প্রত্যাশা | ডেটা কোয়ালিটি-ফার্স্ট সংস্থাগুলি | ওএসএস | তথ্যের উপর প্রত্যাশাকে আনুষ্ঠানিক করুন - কারণ খারাপ তথ্য যেকোনোভাবেই হোক প্রতিটি মেট্রিককে নষ্ট করে দেয়। |
| ডিপচেকস | ML এর জন্য পরীক্ষা এবং CI/CD | ওএসএস + ক্লাউড | ডেটা ড্রিফট, মডেল সমস্যা এবং পর্যবেক্ষণের জন্য ব্যাটারি-অন্তর্ভুক্ত পরীক্ষা; ভালো রেলিং। |
দাম পরিবর্তন হয় - ডকুমেন্টগুলি পরীক্ষা করে দেখুন। এবং হ্যাঁ, আপনি টুল পুলিশ না দেখিয়েই এগুলি মিশ্রিত করতে পারেন।
থ্রেশহোল্ড, খরচ এবং সিদ্ধান্তের বক্ররেখা - গোপন সস 🧪
অদ্ভুত কিন্তু সত্য কথা: একই ROC-AUC সহ দুটি মডেলের ব্যবসায়িক মূল্য আপনার থ্রেশহোল্ড এবং খরচ অনুপাতের ।
দ্রুত তৈরির জন্য শিট:
-
একটি মিথ্যা পজিটিভ বনাম মিথ্যা নেগেটিভের খরচ টাকা বা সময়ের মধ্যে নির্ধারণ করুন।
-
প্রতি ১ হাজার সিদ্ধান্তের জন্য প্রত্যাশিত খরচ গণনা করে থ্রেশহোল্ডগুলি পরিষ্কার করুন।
-
ন্যূনতম প্রত্যাশিত খরচের বেছে নিন , তারপর পর্যবেক্ষণের মাধ্যমে এটি লক করুন।
যখন ধনাত্মক সংখ্যা বিরল হয় তখন PR বক্ররেখা ব্যবহার করুন, সাধারণ আকৃতির জন্য ROC বক্ররেখা ব্যবহার করুন এবং যখন সিদ্ধান্তগুলি সম্ভাব্যতার উপর নির্ভর করে তখন ক্রমাঙ্কন বক্ররেখা ব্যবহার করুন। [2][3]
মিনি-কেস: একটি সাপোর্ট-টিকিট ট্রায়েজ মডেল যার F1 কিন্তু চমৎকার ক্যালিব্রেশন সহ, হার্ড থ্রেশহোল্ড থেকে টায়ার্ড রাউটিং (যেমন, "অটো-রেজলভ," "হিউম্যান-রিভিউ," "এসকেলেট") -এ ক্যালিব্রেটেড স্কোর ব্যান্ডের সাথে সংযুক্ত অপারেশনের পরে ম্যানুয়াল রি-রুট কাট করে।
অনলাইন পর্যবেক্ষণ, প্রবাহ এবং সতর্কতা 🚨
অফলাইন মূল্যায়নই শুরু, শেষ নয়। উৎপাদনে:
-
সেগমেন্ট অনুসারে ইনপুট ড্রিফট , আউটপুট ড্রিফট এবং পারফরম্যান্স ক্ষয় ট্র্যাক করুন
-
রেলিং পরীক্ষা সেট করুন - সর্বাধিক হ্যালুসিনেশন হার, বিষাক্ততার থ্রেশহোল্ড, ফেয়ারনেস ডেল্টা।
-
p95 ল্যাটেন্সি, টাইমআউট এবং প্রতি অনুরোধের খরচের জন্য ক্যানারি ড্যাশবোর্ড যোগ করুন
-
এটিকে দ্রুততর করার জন্য উদ্দেশ্য-নির্মিত লাইব্রেরি ব্যবহার করুন; তারা বাক্সের বাইরে ড্রিফ্ট, গুণমান এবং পর্যবেক্ষণের আদিমতা অফার করে।
ছোট্ট ত্রুটিপূর্ণ রূপক: তোমার মডেলটিকে একটা টক জাতীয় খাবারের মতো ভাবো - তুমি শুধু একবার বেক করে চলে যাও না; তুমি খাওয়াও, দেখো, শুঁকে নাও, এবং মাঝে মাঝে আবার শুরু করো।
মানবিক মূল্যায়ন যা ভেঙে পড়ে না 🍪
যখন মানুষ ফলাফল মূল্যায়ন করে, তখন প্রক্রিয়াটি আপনার ধারণার চেয়েও বেশি গুরুত্বপূর্ণ।
-
পাস বনাম বর্ডারলাইন বনাম ফেলের উদাহরণ সহ সংক্ষিপ্ত রুব্রিক লিখুন
-
যখনই সম্ভব নমুনাগুলি এলোমেলোভাবে এবং অন্ধ করে দিন।
-
আন্তঃ-রেটার চুক্তি পরিমাপ করুন (যেমন, দুই রেটারের জন্য কোহেনের κ, অনেকের জন্য ফ্লেইসের κ) এবং চুক্তি ব্যর্থ হলে রুব্রিকগুলি রিফ্রেশ করুন।
এটি আপনার মানব লেবেলগুলিকে মেজাজ বা কফি সরবরাহের সাথে ভেসে যাওয়া থেকে বিরত রাখে।
গভীরভাবে অনুসন্ধান: RAG-তে LLM-দের জন্য AI কর্মক্ষমতা কীভাবে পরিমাপ করা যায়
-
পুনরুদ্ধারের মান - recall@k, precision@k, nDCG; সোনার তথ্যের কভারেজ। [2]
-
উত্তরের বিশ্বস্ততা - উদ্ধৃতি-এবং-যাচাই চেক, গ্রাউন্ডেডনেস স্কোর, প্রতিপক্ষ প্রোব।
-
ব্যবহারকারীর সন্তুষ্টি - থাম্বস, কাজ সমাপ্তি, প্রস্তাবিত খসড়া থেকে সম্পাদনার দূরত্ব।
-
নিরাপত্তা - বিষাক্ততা, PII লিকেজ, নীতি সম্মতি।
-
খরচ এবং ল্যাটেন্সি - টোকেন, ক্যাশে হিট, p95 এবং p99 ল্যাটেন্সি।
এগুলিকে ব্যবসায়িক ক্রিয়াকলাপের সাথে সংযুক্ত করুন: যদি ভিত্তিহীনতা একটি লাইনের নিচে নেমে যায়, তাহলে স্বয়ংক্রিয়ভাবে কঠোর মোড বা মানব পর্যালোচনার দিকে যান।
আজই শুরু করার জন্য একটি সহজ খেলার বই 🪄
-
কাজের সংজ্ঞা দাও - একটি বাক্য লেখ: AI-কে কী করতে হবে এবং কার জন্য?
-
২-৩টি টাস্ক মেট্রিক্স বেছে নিন - সাথে ক্যালিব্রেশন এবং কমপক্ষে একটি ফেয়ারনেস স্লাইস। [2][3][5]
-
খরচ ব্যবহার করে থ্রেশহোল্ড নির্ধারণ করুন - অনুমান করবেন না।
-
একটি ছোট মূল্যায়ন সেট তৈরি করুন - ১০০-৫০০টি লেবেলযুক্ত উদাহরণ যা উৎপাদন মিশ্রণকে প্রতিফলিত করে।
-
আপনার মূল্যায়ন স্বয়ংক্রিয় করুন - CI তে তারের মূল্যায়ন/মনিটরিং যাতে প্রতিটি পরিবর্তন একই পরীক্ষা চালায়।
-
প্রোড-এ মনিটর করুন - ড্রিফ্ট, ল্যাটেন্সি, খরচ, ইনসিডেন্ট ফ্ল্যাগ।
-
মাসিক-ইশ - প্রুন মেট্রিক্স পর্যালোচনা করুন যা কেউ ব্যবহার করে না; এমন মেট্রিক্স যোগ করুন যা প্রকৃত প্রশ্নের উত্তর দেয়।
-
নথির সিদ্ধান্ত - একটি জীবন্ত স্কোরকার্ড যা আপনার দল আসলে পড়ে।
হ্যাঁ, আক্ষরিক অর্থেই তাই। আর এটা কাজ করে।
সাধারণ ফাঁদ এবং কীভাবে এড়ানো যায় 🕳️🐇
-
একটি একক মেট্রিকের সাথে ওভারফিটিং - সিদ্ধান্তের প্রেক্ষাপটের সাথে মেলে এমন মেট্রিক বাস্কেট
-
ক্রমাঙ্কন উপেক্ষা করা - ক্রমাঙ্কন ছাড়া আত্মবিশ্বাস কেবলই অহংকার। [3]
-
কোনও বিভাগ নেই - সর্বদা ব্যবহারকারী গোষ্ঠী, ভূগোল, ডিভাইস, ভাষা অনুসারে স্লাইস করুন। [5]
-
অনির্ধারিত খরচ - যদি আপনি ত্রুটির মূল্য নির্ধারণ না করেন, তাহলে আপনি ভুল থ্রেশহোল্ড বেছে নেবেন।
-
মানুষের মূল্যায়ন প্রবাহ - চুক্তি পরিমাপ করুন, রুব্রিকগুলি রিফ্রেশ করুন, পর্যালোচকদের পুনরায় প্রশিক্ষণ দিন।
-
কোনও সুরক্ষা উপকরণ নেই - ন্যায্যতা, বিষাক্ততা এবং নীতি পরীক্ষা এখনই যোগ করুন, পরে নয়। [1][5]
তুমি যে বাক্যাংশটির জন্য এসেছ: AI কর্মক্ষমতা কীভাবে পরিমাপ করা যায় - "খুব দীর্ঘ, আমি এটি পড়িনি" 🧾
-
স্পষ্ট ফলাফল দিয়ে শুরু করুন , তারপর টাস্ক , সিস্টেম এবং ব্যবসায়িক মেট্রিক্স স্ট্যাক করুন। [1]
-
কাজের জন্য সঠিক মেট্রিক্স ব্যবহার করুন - শ্রেণীবিভাগের জন্য F1 এবং ROC-AUC; র্যাঙ্কিংয়ের জন্য nDCG/MRR; প্রজন্মের জন্য ওভারল্যাপ + সিমেন্টিক মেট্রিক্স (মানুষের সাথে জোড়া)। [2][4]
-
ক্যালিব্রেট করো এবং তোমার ত্রুটিগুলি নির্ধারণ করে থ্রেশহোল্ড বেছে নাও। [2][3]
-
ন্যায্যতা যোগ করুন এবং স্পষ্টভাবে লেনদেন পরিচালনা করুন। [5]
-
স্বয়ংক্রিয় মূল্যায়ন এবং পর্যবেক্ষণ করুন যাতে আপনি ভয় ছাড়াই পুনরাবৃত্তি করতে পারেন।
তুমি জানো এটা কেমন - কোনটা গুরুত্বপূর্ণ তা পরিমাপ করো, নাহলে তুমি যা গুরুত্বপূর্ণ তা উন্নত করবে।
তথ্যসূত্র
[1] NIST. AI ঝুঁকি ব্যবস্থাপনা কাঠামো (AI RMF)। আরও পড়ুন
[2] scikit-learn. মডেল মূল্যায়ন: ভবিষ্যদ্বাণীর গুণমান পরিমাপ করা (ব্যবহারকারী নির্দেশিকা)। আরও পড়ুন
[3] scikit-learn. সম্ভাব্যতা ক্রমাঙ্কন (ক্রমাঙ্কন বক্ররেখা, ব্রিয়ার স্কোর)। আরও পড়ুন
[4] Papineni et al. (2002)। BLEU: মেশিন অনুবাদের স্বয়ংক্রিয় মূল্যায়নের জন্য একটি পদ্ধতি। ACL। আরও পড়ুন
[5] Hardt, Price, Srebro (2016)। তত্ত্বাবধানে শিক্ষায় সুযোগের সমতা। NeurIPS। আরও পড়ুন