এআই কর্মক্ষমতা কীভাবে পরিমাপ করা যায়

এআই পারফরম্যান্স কীভাবে পরিমাপ করবেন?

যদি আপনি কখনও এমন কোনও মডেল পাঠিয়ে থাকেন যা নোটবুকে চমকে ওঠে কিন্তু উৎপাদনে হোঁচট খায়, তাহলে আপনি ইতিমধ্যেই রহস্যটি জানেন: AI কর্মক্ষমতা কীভাবে পরিমাপ করা যায় তা কোনও জাদুর মেট্রিক নয়। এটি বাস্তব-বিশ্বের লক্ষ্যগুলির সাথে সম্পর্কিত চেকের একটি সিস্টেম। নির্ভুলতা সুন্দর। নির্ভরযোগ্যতা, নিরাপত্তা এবং ব্যবসায়িক প্রভাব আরও ভালো।

এর পরে আপনি যে প্রবন্ধগুলি পড়তে পছন্দ করতে পারেন:

🔗 এআই-এর সাথে কীভাবে কথা বলবেন
ধারাবাহিকভাবে ভালো ফলাফলের জন্য AI-এর সাথে কার্যকরভাবে যোগাযোগের নির্দেশিকা।

🔗 এআই কী প্রম্পট করছে?
ব্যাখ্যা করে কিভাবে প্রম্পটগুলি AI প্রতিক্রিয়া এবং আউটপুট গুণমানকে গঠন করে।

🔗 এআই ডেটা লেবেলিং কী?
প্রশিক্ষণ মডেলের জন্য ডেটাতে সঠিক লেবেল বরাদ্দের সারসংক্ষেপ।

🔗 এআই নীতিশাস্ত্র কী?
দায়িত্বশীল AI উন্নয়ন এবং স্থাপনার নির্দেশনা প্রদানকারী নৈতিক নীতিগুলির ভূমিকা।


ভালো AI কর্মক্ষমতা কী করে তৈরি হয়? ✅

সংক্ষিপ্ত সংস্করণ: ভালো AI কর্মক্ষমতা মানে আপনার সিস্টেমটি কার্যকর, বিশ্বাসযোগ্য এবং অগোছালো, পরিবর্তনশীল পরিস্থিতিতে পুনরাবৃত্তিযোগ্য। সুনির্দিষ্টভাবে:

  • কাজের মান - এটি সঠিক কারণে সঠিক উত্তর পায়।

  • ক্রমাঙ্কন - আত্মবিশ্বাসের স্কোর বাস্তবতার সাথে মিলে যায়, তাই আপনি বুদ্ধিমানের সাথে পদক্ষেপ নিতে পারেন।

  • দৃঢ়তা - এটি ড্রিফট, এজ কেস এবং অ্যাডভারসারিয়াল ফাজের মধ্যেও টিকে থাকে।

  • নিরাপত্তা ও ন্যায্যতা - এটি ক্ষতিকারক, পক্ষপাতদুষ্ট, বা অ-সম্মতিমূলক আচরণ এড়িয়ে চলে।

  • দক্ষতা - এটি যথেষ্ট দ্রুত, যথেষ্ট সস্তা এবং স্কেলে চালানোর জন্য যথেষ্ট স্থিতিশীল।

  • ব্যবসায়িক প্রভাব - এটি আসলে আপনার প্রিয় KPI-কে স্থানান্তরিত করে।

যদি আপনি মেট্রিক্স এবং ঝুঁকির সমন্বয়ের জন্য একটি আনুষ্ঠানিক রেফারেন্স পয়েন্ট চান, তাহলে NIST AI ঝুঁকি ব্যবস্থাপনা কাঠামো নির্ভরযোগ্য সিস্টেম মূল্যায়নের জন্য একটি শক্তিশালী উত্তর তারকা। [1]

 

এআই কর্মক্ষমতা পরিমাপ

AI কর্মক্ষমতা পরিমাপ করার জন্য উচ্চ-স্তরের রেসিপি 🍳

তিনটি স্তরে চিন্তা করুন :

  1. টাস্ক মেট্রিক্স - টাস্কের ধরণের জন্য সঠিকতা: শ্রেণীবিভাগ, রিগ্রেশন, র‍্যাঙ্কিং, জেনারেশন, নিয়ন্ত্রণ ইত্যাদি।

  2. সিস্টেম মেট্রিক্স - ল্যাটেন্সি, থ্রুপুট, প্রতি কল খরচ, ব্যর্থতার হার, ড্রিফ্ট অ্যালার্ম, আপটাইম SLA।

  3. ফলাফলের মেট্রিক্স - আপনি আসলে যে ব্যবসা এবং ব্যবহারকারীর ফলাফল চান: রূপান্তর, ধরে রাখা, নিরাপত্তার ঘটনা, ম্যানুয়াল-পর্যালোচনা লোড, টিকিটের পরিমাণ।

একটি দুর্দান্ত পরিমাপ পরিকল্পনা ইচ্ছাকৃতভাবে তিনটিকেই একত্রিত করে। অন্যথায় আপনি এমন একটি রকেট পাবেন যা কখনও লঞ্চপ্যাড ছেড়ে যায় না।


সমস্যার ধরণ অনুসারে মূল মেট্রিক্স - এবং কখন কোনটি ব্যবহার করবেন 🎯

১) শ্রেণীবিভাগ

  • নির্ভুলতা, প্রত্যাহার, F1 - প্রথম দিনের ত্রয়ী। F1 হল নির্ভুলতা এবং প্রত্যাহারের সুরেলা গড়; যখন ক্লাসগুলি ভারসাম্যহীন থাকে বা খরচগুলি অসমমিত হয় তখন এটি কার্যকর। [2]

  • ROC-AUC - শ্রেণিবদ্ধকারীদের থ্রেশহোল্ড-অ্যাগনস্টিক র‍্যাঙ্কিং; যখন ইতিবাচক ফলাফল বিরল হয়, তখন PR-AUC । [2]

  • সুষম নির্ভুলতা - ক্লাস জুড়ে প্রত্যাহারের গড়; স্কিউ লেবেলের জন্য সুবিধাজনক। [2]

পিটফল ওয়াচ: ভারসাম্যহীনতার সাথে নির্ভুলতাই অত্যন্ত বিভ্রান্তিকর হতে পারে। যদি ৯৯% ব্যবহারকারী বৈধ হন, তাহলে একটি বোকা সর্বদা বৈধ মডেল ৯৯% স্কোর করে এবং দুপুরের খাবারের আগে আপনার জালিয়াতি দলকে ব্যর্থ করে।

২) রিগ্রেশন

  • মানুষের সুস্পষ্ট ত্রুটির জন্য MAE বড় ভুলের শাস্তি দিতে চাইলে RMSE ব্যাখ্যা করা হয়েছে। তারপর স্যানিটি-চেক ডিস্ট্রিবিউশন এবং অবশিষ্ট প্লট। [2]
    (ডোমেন-বান্ধব ইউনিট ব্যবহার করুন যাতে স্টেকহোল্ডাররা আসলে ত্রুটিটি অনুভব করতে পারে।)

৩) র‍্যাঙ্কিং, পুনরুদ্ধার, সুপারিশ

  • nDCG - অবস্থান এবং গ্রেডেড প্রাসঙ্গিকতার প্রতি যত্নশীল; অনুসন্ধানের মানের জন্য মান।

  • MRR - প্রথম প্রাসঙ্গিক আইটেমটি কত দ্রুত প্রদর্শিত হয় তার উপর দৃষ্টি নিবদ্ধ করে ("একটি ভাল উত্তর খুঁজুন" কাজের জন্য দুর্দান্ত)।
    (বাস্তবায়নের রেফারেন্স এবং কার্যকর উদাহরণগুলি মূলধারার মেট্রিক লাইব্রেরিতে রয়েছে।) [2]

৪) টেক্সট তৈরি এবং সারসংক্ষেপ

  • BLEU এবং ROUGE - ক্লাসিক ওভারল্যাপ মেট্রিক্স; বেসলাইন হিসেবে কার্যকর।

  • এম্বেডিং-ভিত্তিক মেট্রিক্স (যেমন, BERTScore ) প্রায়শই মানুষের বিচার-বিবেচনার সাথে আরও ভালোভাবে সম্পর্কযুক্ত হয়; স্টাইল, বিশ্বস্ততা এবং নিরাপত্তার জন্য সর্বদা মানুষের রেটিংগুলির সাথে জুড়ি মেলান। [4]

৫) প্রশ্নের উত্তর

  • সঠিক মিল এবং টোকেন-স্তরের F1 সাধারণ; যদি উত্তরগুলিতে উৎস উল্লেখ করতে হয়, তাহলে গ্রাউন্ডিংও (উত্তর-সমর্থন পরীক্ষা)।


ক্রমাঙ্কন, আত্মবিশ্বাস, এবং ব্রিয়ার লেন্স 🎚️

আত্মবিশ্বাসের স্কোর হলো এমন একটি জায়গা যেখানে অনেক সিস্টেম চুপচাপ থাকে। আপনি এমন সম্ভাব্যতা চান যা বাস্তবতাকে প্রতিফলিত করে যাতে অপারেশনগুলি থ্রেশহোল্ড, মানুষের কাছে রুট বা মূল্য ঝুঁকি নির্ধারণ করতে পারে।

  • ক্রমাঙ্কন বক্ররেখা - পূর্বাভাসিত সম্ভাব্যতা বনাম অভিজ্ঞতামূলক ফ্রিকোয়েন্সি কল্পনা করুন।

  • ব্রিয়ার স্কোর - সম্ভাব্যতার নির্ভুলতার জন্য একটি সঠিক স্কোরিং নিয়ম; কম হলে ভালো। এটি বিশেষভাবে কার্যকর যখন আপনি কেবল র‍্যাঙ্কিং নয়, সম্ভাব্যতার মানের

ফিল্ড নোট: একটু "খারাপ" কিন্তু অনেক ভালো F1 ক্যালিব্রেশন ব্যাপকভাবে উন্নত করতে পারে - কারণ মানুষ অবশেষে স্কোরগুলিতে বিশ্বাস করতে পারে।


নিরাপত্তা, পক্ষপাত এবং ন্যায্যতা - কী গুরুত্বপূর্ণ তা পরিমাপ করুন 🛡️⚖️

একটি সিস্টেম সামগ্রিকভাবে সঠিক হতে পারে এবং নির্দিষ্ট গোষ্ঠীর ক্ষতি করতে পারে। গোষ্ঠীবদ্ধ মেট্রিক্স এবং ন্যায্যতার মানদণ্ড ট্র্যাক করুন:

  • জনসংখ্যাতাত্ত্বিক সমতা - বিভিন্ন গোষ্ঠীতে সমান ধনাত্মক হার।

  • সমান সম্ভাবনা / সমান সুযোগ - গ্রুপ জুড়ে সমান ত্রুটির হার বা সত্য-ধনাত্মক হার; ট্রেড-অফ সনাক্ত এবং পরিচালনা করতে এগুলি ব্যবহার করুন, এক-শট পাস-ব্যর্থ স্ট্যাম্প হিসাবে নয়। [5]

ব্যবহারিক পরামর্শ: ড্যাশবোর্ড দিয়ে শুরু করুন যা মূল বৈশিষ্ট্য অনুসারে মূল মেট্রিক্সগুলিকে বিভক্ত করে, তারপর আপনার নীতির প্রয়োজন অনুসারে নির্দিষ্ট ন্যায্যতা মেট্রিক্স যুক্ত করুন। এটি অস্পষ্ট শোনাচ্ছে, তবে এটি একটি ঘটনার চেয়ে সস্তা।


LLM এবং RAG - একটি পরিমাপের প্লেবুক যা আসলে কাজ করে 📚🔍

জেনারেটিভ সিস্টেম পরিমাপ করা... ঝামেলাপূর্ণ। এটা করো:

  1. ব্যবহারের ক্ষেত্রে ফলাফল নির্ধারণ করুন

  2. শক্তিশালী ফ্রেমওয়ার্ক (যেমন, আপনার স্ট্যাকে মূল্যায়ন টুলিং) দিয়ে বেসলাইন মূল্যায়ন স্বয়ংক্রিয় করুন

  3. শব্দার্থিক মেট্রিক্স (এম্বেডিং-ভিত্তিক) এবং ওভারল্যাপ মেট্রিক্স (BLEU/ROUGE) যোগ করুন। [4]

  4. যন্ত্রের গ্রাউন্ডিং : পুনরুদ্ধার হিট রেট, প্রসঙ্গ নির্ভুলতা/প্রত্যাহার, উত্তর-সমর্থন ওভারল্যাপ।

  5. মানব পর্যালোচনার সাথে একমত - রেটারের ধারাবাহিকতা পরিমাপ করুন (যেমন, কোহেনের κ বা ফ্লেইসের κ) যাতে আপনার লেবেলগুলি ভাইব না হয়।

বোনাস: ল্যাটেন্সি পার্সেন্টাইল এবং টোকেন লগ করুন অথবা প্রতি টাস্কের খরচ গণনা করুন। আগামী মঙ্গলবার আসা কাব্যিক উত্তর কেউ পছন্দ করে না।


তুলনা সারণী - এমন সরঞ্জাম যা আপনাকে AI কর্মক্ষমতা পরিমাপ করতে সাহায্য করে 🛠️📊

(হ্যাঁ, ইচ্ছাকৃতভাবে একটু এলোমেলো - আসল নোটগুলো এলোমেলো।)

টুল সেরা দর্শক দাম কেন এটি কাজ করে - দ্রুত নিন
সাইকিট-লার্ন মেট্রিক্স এমএল অনুশীলনকারীরা বিনামূল্যে শ্রেণীবিভাগ, রিগ্রেশন, র‍্যাঙ্কিংয়ের জন্য ক্যানোনিকাল বাস্তবায়ন; পরীক্ষায় পরিণত করা সহজ। [2]
MLflow মূল্যায়ন / GenAI ডেটা বিজ্ঞানী, এমএলওপিএস বিনামূল্যে + অর্থপ্রদান কেন্দ্রীভূত রান, স্বয়ংক্রিয় মেট্রিক্স, এলএলএম বিচারক, কাস্টম স্কোরার; পরিষ্কারভাবে শিল্পকর্ম লগ করে।
স্পষ্টতই দলগুলো দ্রুত ড্যাশবোর্ড চায় ওএসএস + ক্লাউড ১০০+ মেট্রিক্স, ড্রিফট এবং কোয়ালিটি রিপোর্ট, মনিটরিং হুক - এক চিমটেই চমৎকার ভিজ্যুয়াল।
ওজন এবং পক্ষপাত পরীক্ষা-প্রধান সংস্থাগুলি বিনামূল্যে স্তর পাশাপাশি তুলনা, মূল্যায়ন ডেটাসেট, বিচারক; টেবিল এবং ট্রেসগুলি পরিপাটি।
ল্যাংস্মিথ এলএলএম অ্যাপ নির্মাতারা পরিশোধিত প্রতিটি ধাপ অনুসরণ করুন, নিয়ম বা LLM মূল্যায়নকারীদের সাথে মানব পর্যালোচনা মিশ্রিত করুন; RAG-এর জন্য দুর্দান্ত।
ট্রুলেন্স ওপেন-সোর্স এলএলএম ইভাল প্রেমীরা ওএসএস প্রতিক্রিয়া ফাংশনগুলি বিষাক্ততা, ভিত্তিগততা, প্রাসঙ্গিকতা স্কোর করে; যেকোনো জায়গায় একীভূত করে।
মহান প্রত্যাশা ডেটা কোয়ালিটি-ফার্স্ট সংস্থাগুলি ওএসএস তথ্যের উপর প্রত্যাশাকে আনুষ্ঠানিক করুন - কারণ খারাপ তথ্য যেকোনোভাবেই হোক প্রতিটি মেট্রিককে নষ্ট করে দেয়।
ডিপচেকস ML এর জন্য পরীক্ষা এবং CI/CD ওএসএস + ক্লাউড ডেটা ড্রিফট, মডেল সমস্যা এবং পর্যবেক্ষণের জন্য ব্যাটারি-অন্তর্ভুক্ত পরীক্ষা; ভালো রেলিং।

দাম পরিবর্তন হয় - ডকুমেন্টগুলি পরীক্ষা করে দেখুন। এবং হ্যাঁ, আপনি টুল পুলিশ না দেখিয়েই এগুলি মিশ্রিত করতে পারেন।


থ্রেশহোল্ড, খরচ এবং সিদ্ধান্তের বক্ররেখা - গোপন সস 🧪

অদ্ভুত কিন্তু সত্য কথা: একই ROC-AUC সহ দুটি মডেলের ব্যবসায়িক মূল্য আপনার থ্রেশহোল্ড এবং খরচ অনুপাতের

দ্রুত তৈরির জন্য শিট:

  • একটি মিথ্যা পজিটিভ বনাম মিথ্যা নেগেটিভের খরচ টাকা বা সময়ের মধ্যে নির্ধারণ করুন।

  • প্রতি ১ হাজার সিদ্ধান্তের জন্য প্রত্যাশিত খরচ গণনা করে থ্রেশহোল্ডগুলি পরিষ্কার করুন।

  • ন্যূনতম প্রত্যাশিত খরচের বেছে নিন , তারপর পর্যবেক্ষণের মাধ্যমে এটি লক করুন।

যখন ধনাত্মক সংখ্যা বিরল হয় তখন PR বক্ররেখা ব্যবহার করুন, সাধারণ আকৃতির জন্য ROC বক্ররেখা ব্যবহার করুন এবং যখন সিদ্ধান্তগুলি সম্ভাব্যতার উপর নির্ভর করে তখন ক্রমাঙ্কন বক্ররেখা ব্যবহার করুন। [2][3]

মিনি-কেস: একটি সাপোর্ট-টিকিট ট্রায়েজ মডেল যার F1 কিন্তু চমৎকার ক্যালিব্রেশন সহ, হার্ড থ্রেশহোল্ড থেকে টায়ার্ড রাউটিং (যেমন, "অটো-রেজলভ," "হিউম্যান-রিভিউ," "এসকেলেট") -এ ক্যালিব্রেটেড স্কোর ব্যান্ডের সাথে সংযুক্ত অপারেশনের পরে ম্যানুয়াল রি-রুট কাট করে।


অনলাইন পর্যবেক্ষণ, প্রবাহ এবং সতর্কতা 🚨

অফলাইন মূল্যায়নই শুরু, শেষ নয়। উৎপাদনে:

  • সেগমেন্ট অনুসারে ইনপুট ড্রিফট , আউটপুট ড্রিফট এবং পারফরম্যান্স ক্ষয় ট্র্যাক করুন

  • রেলিং পরীক্ষা সেট করুন - সর্বাধিক হ্যালুসিনেশন হার, বিষাক্ততার থ্রেশহোল্ড, ফেয়ারনেস ডেল্টা।

  • p95 ল্যাটেন্সি, টাইমআউট এবং প্রতি অনুরোধের খরচের জন্য ক্যানারি ড্যাশবোর্ড যোগ করুন

  • এটিকে দ্রুততর করার জন্য উদ্দেশ্য-নির্মিত লাইব্রেরি ব্যবহার করুন; তারা বাক্সের বাইরে ড্রিফ্ট, গুণমান এবং পর্যবেক্ষণের আদিমতা অফার করে।

ছোট্ট ত্রুটিপূর্ণ রূপক: তোমার মডেলটিকে একটা টক জাতীয় খাবারের মতো ভাবো - তুমি শুধু একবার বেক করে চলে যাও না; তুমি খাওয়াও, দেখো, শুঁকে নাও, এবং মাঝে মাঝে আবার শুরু করো।


মানবিক মূল্যায়ন যা ভেঙে পড়ে না 🍪

যখন মানুষ ফলাফল মূল্যায়ন করে, তখন প্রক্রিয়াটি আপনার ধারণার চেয়েও বেশি গুরুত্বপূর্ণ।

  • পাস বনাম বর্ডারলাইন বনাম ফেলের উদাহরণ সহ সংক্ষিপ্ত রুব্রিক লিখুন

  • যখনই সম্ভব নমুনাগুলি এলোমেলোভাবে এবং অন্ধ করে দিন।

  • আন্তঃ-রেটার চুক্তি পরিমাপ করুন (যেমন, দুই রেটারের জন্য কোহেনের κ, অনেকের জন্য ফ্লেইসের κ) এবং চুক্তি ব্যর্থ হলে রুব্রিকগুলি রিফ্রেশ করুন।

এটি আপনার মানব লেবেলগুলিকে মেজাজ বা কফি সরবরাহের সাথে ভেসে যাওয়া থেকে বিরত রাখে।


গভীরভাবে অনুসন্ধান: RAG-তে LLM-দের জন্য AI কর্মক্ষমতা কীভাবে পরিমাপ করা যায়

  • পুনরুদ্ধারের মান - recall@k, precision@k, nDCG; সোনার তথ্যের কভারেজ। [2]

  • উত্তরের বিশ্বস্ততা - উদ্ধৃতি-এবং-যাচাই চেক, গ্রাউন্ডেডনেস স্কোর, প্রতিপক্ষ প্রোব।

  • ব্যবহারকারীর সন্তুষ্টি - থাম্বস, কাজ সমাপ্তি, প্রস্তাবিত খসড়া থেকে সম্পাদনার দূরত্ব।

  • নিরাপত্তা - বিষাক্ততা, PII লিকেজ, নীতি সম্মতি।

  • খরচ এবং ল্যাটেন্সি - টোকেন, ক্যাশে হিট, p95 এবং p99 ল্যাটেন্সি।

এগুলিকে ব্যবসায়িক ক্রিয়াকলাপের সাথে সংযুক্ত করুন: যদি ভিত্তিহীনতা একটি লাইনের নিচে নেমে যায়, তাহলে স্বয়ংক্রিয়ভাবে কঠোর মোড বা মানব পর্যালোচনার দিকে যান।


আজই শুরু করার জন্য একটি সহজ খেলার বই 🪄

  1. কাজের সংজ্ঞা দাও - একটি বাক্য লেখ: AI-কে কী করতে হবে এবং কার জন্য?

  2. ২-৩টি টাস্ক মেট্রিক্স বেছে নিন - সাথে ক্যালিব্রেশন এবং কমপক্ষে একটি ফেয়ারনেস স্লাইস। [2][3][5]

  3. খরচ ব্যবহার করে থ্রেশহোল্ড নির্ধারণ করুন - অনুমান করবেন না।

  4. একটি ছোট মূল্যায়ন সেট তৈরি করুন - ১০০-৫০০টি লেবেলযুক্ত উদাহরণ যা উৎপাদন মিশ্রণকে প্রতিফলিত করে।

  5. আপনার মূল্যায়ন স্বয়ংক্রিয় করুন - CI তে তারের মূল্যায়ন/মনিটরিং যাতে প্রতিটি পরিবর্তন একই পরীক্ষা চালায়।

  6. প্রোড-এ মনিটর করুন - ড্রিফ্ট, ল্যাটেন্সি, খরচ, ইনসিডেন্ট ফ্ল্যাগ।

  7. মাসিক-ইশ - প্রুন মেট্রিক্স পর্যালোচনা করুন যা কেউ ব্যবহার করে না; এমন মেট্রিক্স যোগ করুন যা প্রকৃত প্রশ্নের উত্তর দেয়।

  8. নথির সিদ্ধান্ত - একটি জীবন্ত স্কোরকার্ড যা আপনার দল আসলে পড়ে।

হ্যাঁ, আক্ষরিক অর্থেই তাই। আর এটা কাজ করে।


সাধারণ ফাঁদ এবং কীভাবে এড়ানো যায় 🕳️🐇

  • একটি একক মেট্রিকের সাথে ওভারফিটিং - সিদ্ধান্তের প্রেক্ষাপটের সাথে মেলে এমন মেট্রিক বাস্কেট

  • ক্রমাঙ্কন উপেক্ষা করা - ক্রমাঙ্কন ছাড়া আত্মবিশ্বাস কেবলই অহংকার। [3]

  • কোনও বিভাগ নেই - সর্বদা ব্যবহারকারী গোষ্ঠী, ভূগোল, ডিভাইস, ভাষা অনুসারে স্লাইস করুন। [5]

  • অনির্ধারিত খরচ - যদি আপনি ত্রুটির মূল্য নির্ধারণ না করেন, তাহলে আপনি ভুল থ্রেশহোল্ড বেছে নেবেন।

  • মানুষের মূল্যায়ন প্রবাহ - চুক্তি পরিমাপ করুন, রুব্রিকগুলি রিফ্রেশ করুন, পর্যালোচকদের পুনরায় প্রশিক্ষণ দিন।

  • কোনও সুরক্ষা উপকরণ নেই - ন্যায্যতা, বিষাক্ততা এবং নীতি পরীক্ষা এখনই যোগ করুন, পরে নয়। [1][5]


তুমি যে বাক্যাংশটির জন্য এসেছ: AI কর্মক্ষমতা কীভাবে পরিমাপ করা যায় - "খুব দীর্ঘ, আমি এটি পড়িনি" 🧾

  • স্পষ্ট ফলাফল দিয়ে শুরু করুন , তারপর টাস্ক , সিস্টেম এবং ব্যবসায়িক মেট্রিক্স স্ট্যাক করুন। [1]

  • কাজের জন্য সঠিক মেট্রিক্স ব্যবহার করুন - শ্রেণীবিভাগের জন্য F1 এবং ROC-AUC; র‍্যাঙ্কিংয়ের জন্য nDCG/MRR; প্রজন্মের জন্য ওভারল্যাপ + সিমেন্টিক মেট্রিক্স (মানুষের সাথে জোড়া)। [2][4]

  • ক্যালিব্রেট করো এবং তোমার ত্রুটিগুলি নির্ধারণ করে থ্রেশহোল্ড বেছে নাও। [2][3]

  • ন্যায্যতা যোগ করুন এবং স্পষ্টভাবে লেনদেন পরিচালনা করুন। [5]

  • স্বয়ংক্রিয় মূল্যায়ন এবং পর্যবেক্ষণ করুন যাতে আপনি ভয় ছাড়াই পুনরাবৃত্তি করতে পারেন।

তুমি জানো এটা কেমন - কোনটা গুরুত্বপূর্ণ তা পরিমাপ করো, নাহলে তুমি যা গুরুত্বপূর্ণ তা উন্নত করবে।


তথ্যসূত্র

[1] NIST. AI ঝুঁকি ব্যবস্থাপনা কাঠামো (AI RMF)। আরও পড়ুন
[2] scikit-learn. মডেল মূল্যায়ন: ভবিষ্যদ্বাণীর গুণমান পরিমাপ করা (ব্যবহারকারী নির্দেশিকা)। আরও পড়ুন
[3] scikit-learn. সম্ভাব্যতা ক্রমাঙ্কন (ক্রমাঙ্কন বক্ররেখা, ব্রিয়ার স্কোর)। আরও পড়ুন
[4] Papineni et al. (2002)। BLEU: মেশিন অনুবাদের স্বয়ংক্রিয় মূল্যায়নের জন্য একটি পদ্ধতি। ACL। আরও পড়ুন
[5] Hardt, Price, Srebro (2016)। তত্ত্বাবধানে শিক্ষায় সুযোগের সমতা। NeurIPS। আরও পড়ুন

অফিসিয়াল এআই অ্যাসিস্ট্যান্ট স্টোরে সর্বশেষ এআই খুঁজুন

আমাদের সম্পর্কে

ব্লগে ফিরে যান