এআই কীভাবে অসঙ্গতি সনাক্ত করে?

ডেটা অপারেশনের নীরব নায়ক হলো অ্যানোমালি ডিটেকশন - আগুন লাগার আগে ফিসফিস করে বাজানো ধোঁয়ার অ্যালার্ম।

সহজ কথায়: AI শেখে "মোটামুটি স্বাভাবিক" দেখতে কেমন, নতুন ইভেন্টগুলিকে একটি অস্বাভাবিকতা স্কোরএবং তারপরে একটি থ্রেশহোল্ডের। আসল সমস্যা হল আপনি কীভাবে "মোটামুটি স্বাভাবিক" কে সংজ্ঞায়িত করেন যখন আপনার ডেটা মৌসুমী, অগোছালো, পরিবর্তনশীল এবং মাঝে মাঝে আপনাকে মিথ্যা তথ্য দেয়। [1]

এর পরে আপনি যে প্রবন্ধগুলি পড়তে পছন্দ করতে পারেন:

🔗 কেন এআই সমাজের জন্য ক্ষতিকর হতে পারে:
এআই-এর ব্যাপক ব্যবহারের নৈতিক, অর্থনৈতিক এবং সামাজিক ঝুঁকিগুলো পরীক্ষা করে।

🔗 এআই সিস্টেমগুলো আসলে কী পরিমাণ পানি ব্যবহার করে:
ডেটা সেন্টার শীতলীকরণ, প্রশিক্ষণের চাহিদা এবং পরিবেশের ওপর পানির প্রভাব ব্যাখ্যা করে।

🔗 এআই ডেটাসেট কী এবং কেন এটি গুরুত্বপূর্ণ:
ডেটাসেট, লেবেলিং, উৎস এবং মডেলের কার্যকারিতায় এদের ভূমিকা সংজ্ঞায়িত করে।

🔗 জটিল ডেটা থেকে এআই কীভাবে ট্রেন্ডের পূর্বাভাস দেয়:
এতে প্যাটার্ন শনাক্তকরণ, মেশিন লার্নিং মডেল এবং বাস্তব জগতের পূর্বাভাসের ব্যবহার অন্তর্ভুক্ত রয়েছে।

"কীভাবে AI অসঙ্গতি সনাক্ত করে?"

একটি ভালো উত্তরের কাজ কেবল তালিকাভুক্ত অ্যালগরিদম নয়, বরং আরও বেশি কিছু করা উচিত। এটি বাস্তব, অসম্পূর্ণ তথ্যের উপর প্রয়োগ করার সময় এর মেকানিক্স এবং চেহারা কেমন তা ব্যাখ্যা করবে। সেরা ব্যাখ্যা:

মৌলিক উপাদানগুলি দেখাও: বৈশিষ্ট্য, ভিত্তিরেখা, স্কোরএবং প্রান্তিক মান। [1]
ব্যবহারিক পরিবারের তুলনা: দূরত্ব, ঘনত্ব, এক-শ্রেণী, বিচ্ছিন্নতা, সম্ভাব্যতা, পুনর্গঠন। [1]
টাইম-সিরিজের অদ্ভুততাগুলি পরিচালনা করুন: "স্বাভাবিক" দিনের সময়, সপ্তাহের দিন, প্রকাশ এবং ছুটির দিনের উপর নির্ভর করে। [1]
মূল্যায়নকে একটি বাস্তব প্রতিবন্ধকতা হিসেবে বিবেচনা করুন: মিথ্যা সতর্কতা কেবল বিরক্তিকর নয় - তারা বিশ্বাসকে পুড়িয়ে দেয়। [4]
ব্যাখ্যাযোগ্যতা + লুপের মধ্যে মানুষের উপস্থিতি অন্তর্ভুক্ত করুন, কারণ "এটি অদ্ভুত" মূল কারণ নয়। [5]

মূল বলবিদ্যা: ভিত্তিরেখা, স্কোর, থ্রেশহোল্ড 🧠

বেশিরভাগ অ্যানোমালি সিস্টেম - কল্পনাপ্রসূত হোক বা না হোক - তিনটি চলমান অংশে বিভক্ত:

১) উপস্থাপনা (ওরফে: মডেল যা দেখে)

কাঁচা সংকেত খুব কমই যথেষ্ট। আপনি হয় বৈশিষ্ট্যগুলি (রোলিং পরিসংখ্যান, অনুপাত, ল্যাগ, মৌসুমী ডেল্টা) তৈরি করেন অথবা উপস্থাপনা (এম্বেডিং, সাবস্পেস, পুনর্গঠন) শিখেন। [1]

২) স্কোরিং (ওরফে: এটা কতটা "অদ্ভুত"?)

সাধারণ স্কোরিং ধারণাগুলির মধ্যে রয়েছে:

দূরত্ব-ভিত্তিক: প্রতিবেশীদের থেকে দূরে = সন্দেহজনক। [1]
ঘনত্ব-ভিত্তিক: কম স্থানীয় ঘনত্ব = সন্দেহজনক (LOF হল পোস্টার চাইল্ড)। [1]
এক-শ্রেণী সীমানা: "স্বাভাবিক" শিখুন, যা বাইরে পড়ে তা চিহ্নিত করুন [1]
সম্ভাব্যতা: একটি লাগানো মডেলের অধীনে কম সম্ভাবনা = সন্দেহজনক। [1]
পুনর্গঠন ত্রুটি: যদি স্বাভাবিকের উপর প্রশিক্ষিত একটি মডেল এটিকে পুনর্গঠন করতে না পারে, তাহলে সম্ভবত এটি ভুল। [1]

৩) থ্রেশহোল্ডিং (ওরফে: কখন ঘণ্টা বাজাতে হবে)

থ্রেশহোল্ডগুলি স্থির, কোয়ান্টাইল-ভিত্তিক, প্রতি-সেগমেন্ট, অথবা খরচ-সংবেদনশীল হতে পারে - তবে সেগুলিকে ক্যালিব্রেট , ভাইবস নয়। [4]

একটি অত্যন্ত ব্যবহারিক বিষয়: scikit-learn-এর আউটলায়ার/নভেলটি ডিটেক্টরগুলি কাঁচা স্কোর প্রকাশ করে এবং তারপরে স্কোরগুলিকে ইনলায়ার/আউটলায়ার সিদ্ধান্তে রূপান্তর করার জন্য একটি থ্রেশহোল্ড (প্রায়শই দূষণ-শৈলীর অনুমানের মাধ্যমে নিয়ন্ত্রিত) প্রয়োগ করে। [2]

দ্রুত সংজ্ঞা যা পরে ব্যথা প্রতিরোধ করে 🧯

দুটি পার্থক্য যা আপনাকে সূক্ষ্ম ভুল থেকে রক্ষা করবে:

আউটলায়ার সনাক্তকরণ: আপনার প্রশিক্ষণ ডেটাতে ইতিমধ্যেই আউটলায়ার থাকতে পারে; অ্যালগরিদম তবুও “ঘন স্বাভাবিক অঞ্চল”-কে মডেল করার চেষ্টা করে।
নতুনত্ব সনাক্তকরণ: প্রশিক্ষণ ডেটা পরিষ্কার বলে ধরে নেওয়া হয়; আপনি বিচার করছেন যে নতুন পর্যবেক্ষণগুলি শেখা স্বাভাবিক প্যাটার্নের সাথে খাপ খায় কিনা। [2]

এছাড়াও: নতুনত্ব সনাক্তকরণ প্রায়শই এক-শ্রেণীর শ্রেণীবিভাগ - অস্বাভাবিক উদাহরণগুলি দুর্লভ বা অনির্ধারিত হওয়ায় স্বাভাবিক মডেলিং করা। [1]

তত্ত্বাবধানবিহীন ওয়ার্কহর্স যা আপনি আসলে ব্যবহার করবেন 🧰

যখন লেবেলগুলি দুষ্প্রাপ্য থাকে (যা মূলত সর্বদা হয়), তখন এই সরঞ্জামগুলি আসল পাইপলাইনে প্রদর্শিত হয়:

আইসোলেশন ফরেস্ট: অনেক ট্যাবুলার ক্ষেত্রে একটি শক্তিশালী ডিফল্ট, যা বাস্তবে ব্যাপকভাবে ব্যবহৃত হয় এবং সাইকিট-লার্নে বাস্তবায়িত হয়। [2]
এক-শ্রেণীর SVM: কার্যকর হতে পারে কিন্তু টিউনিং এবং অনুমানের প্রতি সংবেদনশীল; scikit-learn স্পষ্টভাবে সতর্ক হাইপারপ্যারামিটার টিউনিংয়ের প্রয়োজনীয়তার কথা বলে। [2]
স্থানীয় আউটলায়ার ফ্যাক্টর (LOF): ক্লাসিক ঘনত্ব-ভিত্তিক স্কোরিং; যখন "স্বাভাবিক" একটি পরিষ্কার পিণ্ড নয় তখন এটি দুর্দান্ত। [1]

দলগুলো প্রতি সপ্তাহে একটি বাস্তব সমস্যা নতুন করে আবিষ্কার করে: আপনি প্রশিক্ষণ সেটে আউটলায়ার সনাক্তকরণ করছেন নাকি নতুন ডেটাতে নোভেলটি সনাক্তকরণ করছেন তার উপর নির্ভর করে LOF ভিন্নভাবে আচরণ করে - scikit-learn এমনকি অজানা পয়েন্টগুলি নিরাপদে স্কোর করার জন্য novelty=True প্রয়োজন। [2]

একটি শক্তিশালী ভিত্তিরেখা যা ডেটার অস্থিরতার পরেও কাজ করে 🪓

যদি আপনি "আমাদের এমন কিছু দরকার যা আমাদের বিস্মৃতিতে ফেলে না দেয়" মোডে থাকেন, তাহলে শক্তিশালী পরিসংখ্যানকে অবমূল্যায়ন করা হয়।

সংশোধিত z-স্কোর চরম মানগুলির প্রতি সংবেদনশীলতা কমাতে মিডিয়ান এবং MAD (মিডিয়ান অ্যাবসোলিউট ডেভিয়েশন) ব্যবহার করে । NIST-এর EDA হ্যান্ডবুকে সংশোধিত z-স্কোরের রূপটি নথিভুক্ত করা হয়েছে এবং 3.5- এর উপরে পরম মানে একটি সাধারণভাবে ব্যবহৃত "সম্ভাব্য আউটলায়ার" নিয়ম উল্লেখ করা হয়েছে । [3]

এটি প্রতিটি অসঙ্গতি সমস্যার সমাধান করবে না - তবে এটি প্রায়শই একটি শক্তিশালী প্রথম সারির প্রতিরক্ষা, বিশেষ করে শব্দদূষণের মেট্রিক্স এবং প্রাথমিক পর্যায়ের পর্যবেক্ষণের জন্য। [3]

টাইম সিরিজের বাস্তবতা: "স্বাভাবিক" কখন ⏱️📈 এর উপর নির্ভর করে

সময় সিরিজের অসঙ্গতিগুলি জটিল কারণ প্রেক্ষাপটই মূল বিষয়: দুপুরে একটি স্পাইক প্রত্যাশিত হতে পারে; ভোর ৩ টায় একই স্পাইক হওয়ার অর্থ হতে পারে কিছু আগুনে জ্বলছে। তাই অনেক ব্যবহারিক সিস্টেম সময়-সচেতন বৈশিষ্ট্য (ল্যাগ, মৌসুমী ডেল্টা, ঘূর্ণায়মান উইন্ডো) এবং প্রত্যাশিত প্যাটার্নের সাপেক্ষে স্কোর বিচ্যুতি ব্যবহার করে স্বাভাবিকতার মডেল তৈরি করে। [1]

যদি আপনি কেবল একটি নিয়ম মনে রাখেন: আপনার বেসলাইন (ঘণ্টা/দিন/অঞ্চল/পরিষেবা স্তর) ভাগ করুন। [1]

মূল্যায়ন: বিরল-ঘটনার ফাঁদ 🧪

অনিয়ম সনাক্তকরণ প্রায়শই "খড়ের গাদায় সূঁচ" দিয়ে করা হয়, যা মূল্যায়নকে অদ্ভুত করে তোলে:

যখন ইতিবাচক দিকগুলি বিরল হয়, তখন ROC বক্ররেখাগুলি প্রতারণামূলকভাবে সূক্ষ্ম দেখাতে পারে।
ভারসাম্যহীন সেটিংসের জন্য প্রিসিশন-রিকল ভিউ প্রায়শই বেশি তথ্যবহুল হয় কারণ তারা ইতিবাচক শ্রেণীর কর্মক্ষমতার উপর ফোকাস করে। [4]
কার্যক্ষমতার দিক থেকে, আপনার একটি সতর্কতা বাজেটও প্রয়োজন : মানুষ রাগ না করে প্রতি ঘন্টায় কতগুলি সতর্কতা নির্ধারণ করতে পারে? [4]

ঘূর্ণায়মান উইন্ডো জুড়ে ব্যাকটেস্টিং আপনাকে ক্লাসিক ব্যর্থতা মোডটি ধরতে সাহায্য করে: "এটি সুন্দরভাবে কাজ করে... গত মাসের বিতরণে।" [1]

ব্যাখ্যাযোগ্যতা এবং মূল কারণ: আপনার কাজ দেখান 🪄

ব্যাখ্যা ছাড়া সতর্ক করা রহস্যময় পোস্টকার্ড পাওয়ার মতো। দরকারী, কিন্তু হতাশাজনক।

ব্যাখ্যাযোগ্যতা সরঞ্জামগুলি কোন বৈশিষ্ট্যগুলি একটি অসঙ্গতি স্কোরে সবচেয়ে বেশি অবদান রেখেছে তা নির্দেশ করে , অথবা "এটি স্বাভাবিক দেখাতে কী পরিবর্তন করতে হবে?" ধরণের ব্যাখ্যা দিয়ে সাহায্য করতে পারে। ইন্টারপ্রেটেবল মেশিন লার্নিং বইটি সাধারণ পদ্ধতি (SHAP-শৈলীর অ্যাট্রিবিউশন সহ) এবং তাদের সীমাবদ্ধতার উপর একটি নির্ভরযোগ্য, সমালোচনামূলক নির্দেশিকা। [5]

লক্ষ্য কেবল অংশীদারদের সান্ত্বনা দেওয়া নয় - এটি দ্রুত ট্রায়েজ এবং কম পুনরাবৃত্তিমূলক ঘটনা।

স্থাপনা, প্রবাহ এবং প্রতিক্রিয়া লুপ 🚀

মডেলরা স্লাইডে বাস করে না, তারা পাইপলাইনে বাস করে।

প্রোডাকশনে প্রথম মাসের একটি সাধারণ ঘটনা হলো: ডিটেক্টরটি মূলত ডেপ্লয়, ব্যাচ জব এবং অনুপস্থিত ডেটা চিহ্নিত করে… যা এখনও বেশ কার্যকর, কারণ এটি আপনাকে “ডেটার মান সম্পর্কিত ঘটনা” এবং “ব্যবসায়িক অসঙ্গতি” আলাদা করতে বাধ্য করে।

বাস্তবে:

আচরণের পরিবর্তনের সাথে সাথে ড্রিফ্ট পর্যবেক্ষণ করুন এবং পুনরায় প্রশিক্ষণ/পুনঃক্যালিব্রেট করুন। [1]
লগ স্কোর ইনপুট + মডেল ভার্সন যাতে আপনি পুনরুত্পাদন করতে পারেন কেন কিছু পৃষ্ঠা করা হয়েছে। [5]
সময়ের সাথে সাথে থ্রেশহোল্ড এবং বিভাগগুলি সুরক্ষিত করতে মানুষের প্রতিক্রিয়া (দরকারী বনাম শব্দের সতর্কতা) ক্যাপচার করুন । [4]

নিরাপত্তা কোণ: আইডিএস এবং আচরণগত বিশ্লেষণ 🛡️

নিরাপত্তা দলগুলি প্রায়শই নিয়ম-ভিত্তিক সনাক্তকরণের সাথে অস্বাভাবিক ধারণাগুলিকে মিশ্রিত করে: "স্বাভাবিক হোস্ট আচরণের" জন্য বেসলাইন, এবং পরিচিত খারাপ প্যাটার্নের জন্য স্বাক্ষর এবং নীতি। NIST-এর SP 800-94 (চূড়ান্ত) অনুপ্রবেশ সনাক্তকরণ এবং প্রতিরোধ ব্যবস্থা বিবেচনার জন্য একটি বহুল উদ্ধৃত কাঠামো হিসাবে রয়ে গেছে; এটি আরও উল্লেখ করে যে 2012 সালের একটি খসড়া "রেভ. 1" কখনও চূড়ান্ত হয়নি এবং পরে তা বাতিল করা হয়েছিল। [3]

অনুবাদ: যেখানে সাহায্য করে সেখানে ML ব্যবহার করুন, কিন্তু বিরক্তিকর নিয়মগুলো ফেলে দেবেন না - এগুলো কাজ করে বলেই বিরক্তিকর।

তুলনা সারণী: এক নজরে জনপ্রিয় পদ্ধতি 📊

টুল / পদ্ধতি	সেরা জন্য	কেন এটি কাজ করে (বাস্তবে)
শক্তিশালী / পরিবর্তিত z-স্কোর	সহজ মেট্রিক্স, দ্রুত বেসলাইন	যখন আপনার "যথেষ্ট ভালো" এবং কম মিথ্যা অ্যালার্মের প্রয়োজন হয় তখন শক্তিশালী প্রথম পাস। [3]
বিচ্ছিন্ন বন	সারণী, মিশ্র বৈশিষ্ট্য	দৃঢ় ডিফল্ট বাস্তবায়ন এবং বাস্তবে ব্যাপকভাবে ব্যবহৃত। [2]
এক-শ্রেণীর SVM	"স্বাভাবিক" অঞ্চলগুলি সংক্ষিপ্ত করুন	সীমানা-ভিত্তিক নতুনত্ব সনাক্তকরণ; টিউনিং অনেক গুরুত্বপূর্ণ। [2]
স্থানীয় বহির্মুখী ফ্যাক্টর	বহুমুখী স্বাভাবিকতা	প্রতিবেশীদের সাথে ঘনত্বের বৈসাদৃশ্য স্থানীয় অদ্ভুততাকে ধরে ফেলে। [1]
পুনর্গঠন ত্রুটি (যেমন, অটোএনকোডার-স্টাইল)	উচ্চ-মাত্রিক নিদর্শন	স্বাভাবিক অবস্থায় ট্রেন চালান; বড় পুনর্গঠন ত্রুটি বিচ্যুতি চিহ্নিত করতে পারে। [1]

চিট কোড: শক্তিশালী বেসলাইন + একটি বিরক্তিকর, তত্ত্বাবধানবিহীন পদ্ধতি দিয়ে শুরু করুন, তারপর শুধুমাত্র যেখানে ভাড়া দেওয়া হয় সেখানে জটিলতা যোগ করুন।

একটি ছোট প্লেবুক: শূন্য থেকে সতর্কতা পর্যন্ত 🧭

কার্যপরিচালনগতভাবে “অস্বাভাবিক” বিষয়টিকে সংজ্ঞায়িত করুন (যেমন: লেটেন্সি, জালিয়াতির ঝুঁকি, সিপিইউ থ্র্যাশ, ইনভেন্টরি ঝুঁকি)।
একটি বেসলাইন (শক্তিশালী পরিসংখ্যান বা খণ্ডিত থ্রেশহোল্ড) দিয়ে শুরু করুন। [3]
প্রথম পাস হিসেবে একটি অতত্ত্বাবধানী মডেল বেছে নিন (আইসোলেশন ফরেস্ট / LOF / ওয়ান-ক্লাস SVM)। [2]
একটি সতর্কতামূলক বাজেটের মাধ্যমে থ্রেশহোল্ড নির্ধারণ করুন, এবং যদি ইতিবাচক দিকগুলি বিরল হয় তবে পিআর-স্টাইলের চিন্তাভাবনা দিয়ে মূল্যায়ন করুন। [4]
ব্যাখ্যা + লগিং যোগ করুন যাতে প্রতিটি সতর্কতা পুনরুৎপাদনযোগ্য এবং ডিবাগযোগ্য হয়। [5]
ব্যাকটেস্ট, শিপ, লার্ন, রিক্যালিব্রেট - ড্রিফট স্বাভাবিক। [1]

তুমি এক সপ্তাহের মধ্যে এটা করতে পারবে... ধরে নিচ্ছি তোমার টাইমস্ট্যাম্পগুলো ডাক্ট টেপ এবং আশার সাথে একসাথে আটকে নেই। 😅

শেষ মন্তব্য - অনেক লম্বা, আমি এটা পড়িনি🧾

AI "স্বাভাবিক" এর একটি বাস্তব চিত্র শিখে, বিচ্যুতিগুলিকে স্কোর করে এবং একটি সীমা অতিক্রম করলে চিহ্নিত করে অসঙ্গতি সনাক্ত করে। সেরা সিস্টেমগুলি চাকচিক্যের কারণে নয়, বরং ক্রমাঙ্কিত: খণ্ডিত ভিত্তিরেখা, সতর্কতা বাজেট, ব্যাখ্যাযোগ্য আউটপুট এবং একটি প্রতিক্রিয়া লুপ যা কোলাহলপূর্ণ অ্যালার্মগুলিকে একটি বিশ্বাসযোগ্য সংকেতে পরিণত করে। [1]

তথ্যসূত্র

পিমেন্টেল এট আল. (২০১৪) - নতুনত্ব সনাক্তকরণের একটি পর্যালোচনা (পিডিএফ, অক্সফোর্ড বিশ্ববিদ্যালয়) আরও পড়ুন
স্কিকিট-লার্ন ডকুমেন্টেশন - নতুনত্ব এবং আউটলায়ার সনাক্তকরণ আরও পড়ুন
NIST/SEMATECH ই-হ্যান্ডবুক - আউটলায়ার সনাক্তকরণ আরও পড়ুন এবং NIST CSRC - SP 800-94 (চূড়ান্ত): অনুপ্রবেশ সনাক্তকরণ এবং প্রতিরোধ সিস্টেম (IDPS) এর নির্দেশিকা আরও পড়ুন
সাইতো ও রেহমসমেয়ার (২০১৫) - ভারসাম্যহীন ডেটাসেটে বাইনারি ক্লাসিফায়ার মূল্যায়নের ক্ষেত্রে ROC প্লটের চেয়ে প্রিসিশন-রিকল প্লট বেশি তথ্যপূর্ণ (PLOS ONE) আরও পড়ুন
মোলনার - ইন্টারপ্রেটেবল মেশিন লার্নিং (ওয়েব বই) আরও পড়ুন

অফিসিয়াল এআই অ্যাসিস্ট্যান্ট স্টোরে সর্বশেষ এআই খুঁজুন

আমাদের সম্পর্কে

ব্লগে ফিরে যান