সংক্ষিপ্ত উত্তর: এআই প্রিপ্রসেসিং হল পুনরাবৃত্তিযোগ্য ধাপগুলির একটি সেট যা কাঁচা, উচ্চ-ভেরিয়েন্স ডেটাকে সামঞ্জস্যপূর্ণ মডেল ইনপুটে রূপান্তর করে, যার মধ্যে রয়েছে পরিষ্কারকরণ, এনকোডিং, স্কেলিং, টোকেনাইজিং এবং চিত্র রূপান্তর। এটি গুরুত্বপূর্ণ কারণ যদি প্রশিক্ষণ ইনপুট এবং উৎপাদন ইনপুট ভিন্ন হয়, তাহলে মডেলগুলি নীরবে ব্যর্থ হতে পারে। যদি কোনও পদক্ষেপ পরামিতি "শিখে", তবে ফাঁস এড়াতে এটি কেবল প্রশিক্ষণ ডেটাতে ফিট করুন।
প্রশিক্ষণের আগে (এবং কখনও কখনও সময়কালে) আপনি কাঁচা ডেটার জন্য যা করেন তা হল AI প্রিপ্রসেসিং, যাতে একজন মডেল আসলে এটি থেকে শিখতে পারে। কেবল "পরিষ্কার" নয়। এটি পরিষ্কার করা, আকার দেওয়া, স্কেলিং করা, এনকোডিং করা, বৃদ্ধি করা এবং ডেটা প্যাকেজিংকে একটি ধারাবাহিক উপস্থাপনায় পরিণত করা যা পরে আপনার মডেলকে চুপচাপ ট্রিপ করবে না। [1]
মূল বিষয়গুলি:
সংজ্ঞা : প্রিপ্রসেসিং কাঁচা টেবিল, টেক্সট, ছবি এবং লগগুলিকে মডেল-প্রস্তুত বৈশিষ্ট্যে রূপান্তর করে।
ধারাবাহিকতা : অমিল ব্যর্থতা রোধ করতে প্রশিক্ষণ এবং অনুমানের সময় একই রূপান্তর প্রয়োগ করুন।
লিকেজ : শুধুমাত্র প্রশিক্ষণ ডেটার উপর স্কেলার, এনকোডার এবং টোকেনাইজার ফিট করুন।
পুনরুৎপাদনযোগ্যতা : অ্যাড-হক নোটবুক সেল সিকোয়েন্স নয়, পরিদর্শনযোগ্য পরিসংখ্যান দিয়ে পাইপলাইন তৈরি করুন।
উৎপাদন পর্যবেক্ষণ : স্কিউ এবং ড্রিফ্ট ট্র্যাক করুন যাতে ইনপুটগুলি ধীরে ধীরে কর্মক্ষমতা নষ্ট না করে।
এর পরে আপনি যে প্রবন্ধগুলি পড়তে পছন্দ করতে পারেন:
🔗 বাস্তব-বিশ্বের কর্মক্ষমতার জন্য AI মডেলগুলি কীভাবে পরীক্ষা করবেন
নির্ভুলতা, দৃঢ়তা এবং পক্ষপাত দ্রুত মূল্যায়নের ব্যবহারিক পদ্ধতি।.
🔗 টেক্সট-টু-স্পিচ এআই কি এবং এটি কীভাবে কাজ করে?
আজকের TTS-এর মূলনীতি, মূল ব্যবহার এবং সাধারণ সীমাবদ্ধতাগুলি ব্যাখ্যা করে।.
🔗 আজ কি কৃত্রিম বুদ্ধিমত্তা (এআই) সঠিকভাবে কার্সিভ হাতের লেখা পড়তে পারে?
শনাক্তকরণ চ্যালেঞ্জ, সেরা সরঞ্জাম এবং নির্ভুলতার টিপস কভার করে।.
🔗 সাধারণ কাজে AI কতটা সঠিক?
নির্ভুলতার কারণ, মানদণ্ড এবং বাস্তব-বিশ্বের নির্ভরযোগ্যতা ভেঙে দেয়।.
সহজ ভাষায় AI প্রিপ্রসেসিং (এবং এটি কী নয়) 🤝
এআই প্রিপ্রসেসিং হলো কাঁচা ইনপুট (টেবিল, টেক্সট, ছবি, লগ) কে মডেল-প্রস্তুত বৈশিষ্ট্যে রূপান্তর করা। যদি কাঁচা ডেটা একটি অগোছালো গ্যারেজ হয়, তাহলে প্রিপ্রসেসিং হলো বাক্সগুলিতে লেবেল লাগানো, ভাঙা আবর্জনা ফেলে দেওয়া এবং জিনিসপত্র স্ট্যাক করা যাতে আপনি আসলে কোনও আঘাত ছাড়াই চলতে পারেন।
এটি মডেল নিজেই নয়। এটি এমন জিনিস যা মডেলটিকে সম্ভব করে তোলে:
-
বিভাগগুলিকে সংখ্যায় রূপান্তর করা (এক-গরম, ক্রমিক, ইত্যাদি) [1]
-
বৃহৎ সংখ্যাসূচক পরিসরগুলিকে সুস্থ পরিসরে স্কেল করা (মানীকরণ, সর্বনিম্ন-সর্বোচ্চ, ইত্যাদি) [1]
-
ইনপুট আইডিতে টেক্সট টোকেনাইজ করা (এবং সাধারণত একটি মনোযোগ মুখোশ) [3]
-
ছবির আকার পরিবর্তন/ক্রপ করা এবং নির্ধারক বনাম এলোমেলো রূপান্তর যথাযথভাবে প্রয়োগ করা [4]
-
পুনরাবৃত্তিযোগ্য পাইপলাইন তৈরি করা যাতে প্রশিক্ষণ এবং "বাস্তব জীবনের" ইনপুটগুলি সূক্ষ্মভাবে ভিন্ন না হয় [2]
একটি ছোট্ট ব্যবহারিক বিষয়: "প্রিপ্রসেসিং" বলতে মডেল ইনপুট দেখার আগে ধারাবাহিকভাবে যা কিছু ঘটে তা । কিছু দল এটিকে "ফিচার ইঞ্জিনিয়ারিং" বনাম "ডেটা ক্লিনিং" এই দুই ভাগে ভাগ করে, কিন্তু বাস্তব জীবনে এই রেখাগুলি ঝাপসা হয়ে যায়।

কেন মানুষের স্বীকার করার চেয়ে AI প্রিপ্রসেসিং বেশি গুরুত্বপূর্ণ 😬
একজন মডেল একজন প্যাটার্ন-ম্যাচার, মাইন্ড রিডার নয়। যদি আপনার ইনপুটগুলি অসঙ্গত হয়, তাহলে মডেলটি অসঙ্গত নিয়ম শিখবে। এটা দার্শনিক নয়, এটা বেদনাদায়কভাবে আক্ষরিক।.
প্রিপ্রসেসিং আপনাকে সাহায্য করে:
-
অনুমানকারীরা নির্ভরযোগ্যভাবে ব্যবহার করতে পারে এমন উপস্থাপনাগুলিতে বৈশিষ্ট্যগুলি স্থাপন করে শেখার স্থিতিশীলতা উন্নত করুন
-
শব্দ কমিয়ে দিন যা একজন মডেল সাধারণীকরণ করতে পারে (অদ্ভুত শিল্পকর্ম মুখস্থ করার পরিবর্তে)।
-
নীরব ব্যর্থতা মোডগুলি প্রতিরোধ করুন (যে ধরণেরটি বৈধতার ক্ষেত্রে "আশ্চর্যজনক" দেখায় এবং তারপরে উৎপাদনে ফেসপ্ল্যান্ট দেখায়)। [2]
-
পুনরাবৃত্তির গতি বাড়ান কারণ পুনরাবৃত্তিযোগ্য রূপান্তরগুলি সপ্তাহের প্রতিদিন নোটবুক স্প্যাগেটিকে হারিয়ে ফেলে।
আর, এখান থেকেই অনেক "মডেল পারফর্মেন্স" আসে। যেমন... আশ্চর্যজনকভাবে অনেক। মাঝে মাঝে এটা অন্যায্য মনে হয়, কিন্তু এটাই বাস্তবতা 🙃
একটি ভালো AI প্রিপ্রসেসিং পাইপলাইন কী তৈরি করে ✅
প্রিপ্রসেসিংয়ের একটি "ভালো সংস্করণ" সাধারণত এই গুণাবলী ধারণ করে:
-
পুনরুৎপাদনযোগ্য : একই ইনপুট → একই আউটপুট (কোন রহস্যময় এলোমেলোতা নেই যদি না এটি ইচ্ছাকৃতভাবে বৃদ্ধি করা হয়)।
-
ট্রেন-সার্ভিং ধারাবাহিকতা : প্রশিক্ষণের সময় আপনি যা কিছু করেন তা অনুমানের সময় একইভাবে প্রয়োগ করা হয় (একই ফিট করা প্যারামিটার, একই ক্যাটাগরি মানচিত্র, একই টোকেনাইজার কনফিগারেশন, ইত্যাদি)। [2]
-
লিকেজ-নিরাপদ : মূল্যায়ন/পরীক্ষার কোনও কিছুই কোনও
ফিটধাপকে প্রভাবিত করে না। (এই ফাঁদ সম্পর্কে আরও কিছুক্ষণ পরে।) [2] -
পর্যবেক্ষণযোগ্য : আপনি কী পরিবর্তন হয়েছে তা পরীক্ষা করতে পারেন (বৈশিষ্ট্যের পরিসংখ্যান, অনুপস্থিতি, বিভাগের সংখ্যা) তাই ডিবাগিং ভাইব-ভিত্তিক প্রকৌশল নয়।
final_v7_really_final_ok নামক নোটবুক সেলের স্তূপ ... তাহলে তুমি জানো এটা কেমন। এটা কাজ করে যতক্ষণ না এটা 😬
এআই প্রিপ্রসেসিংয়ের মূল উপাদান 🧱
প্রিপ্রসেসিংকে একটি পাইপলাইনে একত্রিত করে তৈরি করা ব্লকের একটি সেট হিসেবে ভাবুন।.
১) পরিষ্কার এবং বৈধতা 🧼
সাধারণ কাজ:
-
ডুপ্লিকেটগুলি সরান
-
অনুপস্থিত মানগুলি পরিচালনা করুন (ড্রপ করুন, অনুমান করুন, অথবা স্পষ্টভাবে অনুপস্থিতি উপস্থাপন করুন)
-
প্রকার, ইউনিট এবং ব্যাপ্তি প্রয়োগ করুন
-
ত্রুটিপূর্ণ ইনপুট সনাক্ত করুন
-
টেক্সট ফরম্যাটের মান নির্ধারণ করুন (হোয়াইটস্পেস, কেসিং নিয়ম, ইউনিকোডের অদ্ভুততা)
এই অংশটি আকর্ষণীয় নয়, তবে এটি অত্যন্ত বোকা ভুলগুলি প্রতিরোধ করে। আমি ভালোবাসার সাথে বলছি।.
২) শ্রেণীবদ্ধ তথ্য এনকোডিং 🔤
"red" বা "premium_user" এর মতো কাঁচা স্ট্রিং ব্যবহার করতে পারে না ।
সাধারণ পদ্ধতি:
-
এক-গরম এনকোডিং (বিভাগ → বাইনারি কলাম) [1]
-
অর্ডিনাল এনকোডিং (বিভাগ → পূর্ণসংখ্যা আইডি) [1]
মূল বিষয়টি হলো কোন এনকোডারটি বেছে নেবেন তা নয় - বরং মূল বিষয় হলো ম্যাপিংটি যেন ধারাবাহিক থাকে এবং প্রশিক্ষণ এবং অনুমানের মধ্যে "আকৃতি পরিবর্তন" না করে। এভাবেই আপনি এমন একটি মডেল পাবেন যা অফলাইনে ভালো দেখায় এবং অনলাইনে ভুতুড়ে কাজ করে। [2]
৩) বৈশিষ্ট্য স্কেলিং এবং স্বাভাবিকীকরণ 📏
যখন বৈশিষ্ট্যগুলি সম্পূর্ণ ভিন্ন পরিসরে থাকে তখন স্কেলিং গুরুত্বপূর্ণ।.
দুটি ক্লাসিক:
-
মানীকরণ : গড় অপসারণ এবং একক প্রকরণে স্কেল [1]
-
সর্বনিম্ন-সর্বোচ্চ স্কেলিং : প্রতিটি বৈশিষ্ট্যকে একটি নির্দিষ্ট পরিসরে স্কেল করুন [1]
এমনকি যখন আপনি এমন মডেল ব্যবহার করেন যা "বেশিরভাগ ক্ষেত্রেই কাজ করে", তখন স্কেলিং প্রায়শই পাইপলাইনগুলিকে যুক্তি করা সহজ করে তোলে - এবং দুর্ঘটনাক্রমে ভেঙে ফেলা আরও কঠিন করে তোলে।.
৪) ফিচার ইঞ্জিনিয়ারিং (ওরফে দরকারী প্রতারণা) 🧪
এখানেই আপনি আরও ভালো সিগন্যাল তৈরি করে মডেলের কাজ সহজ করে তুলবেন:
-
অনুপাত (ক্লিক / ইমপ্রেশন)
-
জানালা ঘুরছে (গত N দিন)
-
গণনা (প্রতি ব্যবহারকারীর ইভেন্ট)
-
হেভি-টেইলড ডিস্ট্রিবিউশনের জন্য লগ ট্রান্সফর্ম
এখানে একটা শিল্প আছে। মাঝে মাঝে তুমি একটা ফিচার তৈরি করবে, গর্বিত বোধ করবে... আর সেটা কিছুই করবে না। অথবা আরও খারাপ, এটা কষ্ট দেয়। এটাই স্বাভাবিক। ফিচারের সাথে আবেগগতভাবে যুক্ত হও না - তারা তোমাকে ভালোবাসে না 😅
৫) সঠিক পদ্ধতিতে ডেটা বিভক্ত করা ✂️
এটি স্পষ্ট শোনাচ্ছে যতক্ষণ না এটি স্পষ্ট হয়:
-
আইআইডি ডেটার জন্য এলোমেলো বিভাজন
-
সময় সিরিজের জন্য সময়-ভিত্তিক বিভাজন
-
যখন সত্তা পুনরাবৃত্তি করে তখন গোষ্ঠীবদ্ধ বিভাজন (ব্যবহারকারী, ডিভাইস, রোগী)
এবং গুরুত্বপূর্ণভাবে: ডেটা থেকে শেখার জন্য প্রিপ্রসেসিং ফিট করার আগে বিভক্ত করুন । যদি আপনার প্রিপ্রসেসিং ধাপটি প্যারামিটারগুলি "শিখে" (যেমন উপায়, শব্দভাণ্ডার, বিভাগ মানচিত্র), তবে এটি কেবল প্রশিক্ষণ থেকে শিখতে হবে। [2]
ডেটা টাইপ অনুসারে এআই প্রিপ্রসেসিং: ট্যাবুলার, টেক্সট, ছবি 🎛️
আপনি মডেলটিকে কী খাওয়ান তার উপর নির্ভর করে প্রি-প্রসেসিং আকার পরিবর্তন করে।.
ট্যাবুলার ডেটা (স্প্রেডশিট, লগ, ডাটাবেস) 📊
সাধারণ পদক্ষেপ:
-
অনুপস্থিত মূল্য কৌশল
-
শ্রেণীবদ্ধ এনকোডিং [1]
-
সংখ্যাসূচক কলাম স্কেলিং [1]
-
আউটলায়ার হ্যান্ডলিং (ডোমেনের নিয়মগুলি বেশিরভাগ সময় "র্যান্ডম ক্লিপিং" কে ছাড়িয়ে যায়)
-
প্রাপ্ত বৈশিষ্ট্য (সমষ্টি, ল্যাগ, ঘূর্ণায়মান পরিসংখ্যান)
ব্যবহারিক পরামর্শ: কলাম গ্রুপগুলিকে স্পষ্টভাবে সংজ্ঞায়িত করুন (সংখ্যাসূচক বনাম শনাক্তকারী বনাম শনাক্তকারী)। আপনার ভবিষ্যৎ স্বয়ং আপনাকে ধন্যবাদ জানাবে।.
টেক্সট ডেটা (NLP) 📝
টেক্সট প্রিপ্রসেসিং-এ প্রায়শই অন্তর্ভুক্ত থাকে:
-
টোকেন/সাবওয়ার্ডে টোকেনাইজেশন
-
ইনপুট আইডিতে রূপান্তর
-
প্যাডিং/কাটা
-
তৈরির মুখোশ [3]
ছোট্ট নিয়ম যা কষ্ট কমায়: ট্রান্সফরমার-ভিত্তিক সেটআপের জন্য, মডেলের প্রত্যাশিত টোকেনাইজার সেটিংস অনুসরণ করুন এবং যদি আপনার কোনও কারণ না থাকে তবে ফ্রিস্টাইল করবেন না। ফ্রিস্টাইলিং হল এমন একটি পদ্ধতি যার মাধ্যমে আপনি "এটি প্রশিক্ষণ দেয় কিন্তু এটি অদ্ভুত" বলে শেষ করেন।
ছবি (কম্পিউটার ভিশন) 🖼️
সাধারণ প্রাক-প্রক্রিয়াকরণ:
-
সামঞ্জস্যপূর্ণ আকারে আকার পরিবর্তন / ক্রপ করুন
-
মূল্যায়নের জন্য নির্ধারক রূপান্তর
-
প্রশিক্ষণ বৃদ্ধির জন্য এলোমেলো রূপান্তর (যেমন, এলোমেলো ক্রপিং) [4]
একটা জিনিস মানুষ মিস করে: "র্যান্ডম ট্রান্সফর্মেশন" কেবল একটা ভাবনা নয় - প্রতিবার ডাকা হলেই এগুলো আক্ষরিক অর্থেই প্যারামিটারের নমুনা নেয়। প্রশিক্ষণের বৈচিত্র্যের জন্য দুর্দান্ত, যদি আপনি র্যান্ডমনেস বন্ধ করতে ভুলে যান তবে মূল্যায়নের জন্য খারাপ। [4]
সবাই যে ফাঁদে পা দেয়: তথ্য ফাঁস 🕳️🐍
লিকেজ হলো যখন মূল্যায়ন তথ্য থেকে তথ্য প্রশিক্ষণে প্রবেশ করে - প্রায়শই প্রি-প্রসেসিংয়ের মাধ্যমে। এটি যাচাইকরণের সময় আপনার মডেলকে জাদুকরী দেখাতে পারে, তারপর বাস্তব জগতে আপনাকে হতাশ করতে পারে।.
সাধারণ ফুটো ধরণ:
-
পূর্ণ-ডেটাসেট পরিসংখ্যান ব্যবহার করে স্কেলিং (শুধুমাত্র প্রশিক্ষণের পরিবর্তে) [2]
-
ট্রেন+টেস্ট একসাথে ব্যবহার করে ক্যাটাগরি ম্যাপ তৈরি করা [2]
-
যেকোনো
fit()অথবাfit_transform()ধাপ যা পরীক্ষার সেটটি "দেখে" [2]
মূল নিয়ম (সহজ, নিষ্ঠুর, কার্যকর):
-
ফিট যেকোনো জিনিস শুধুমাত্র প্রশিক্ষণের সময় ফিট হওয়া উচিত।
-
তারপর আপনি সেই লাগানো ট্রান্সফরমার ব্যবহার করে ভ্যালিডেশন/পরীক্ষা রূপান্তর করবেন
আর যদি তুমি জানতে চাও যে "এটা কতটা খারাপ হতে পারে?" তাহলে gut-check: scikit-learn-এর নিজস্ব ডকস একটি লিকেজ উদাহরণ দেখায় যেখানে একটি ভুল প্রিপ্রসেসিং অর্ডার এলোমেলো লক্ষ্যবস্তুতে 0.76 0.5 । ভুল লিকেজ দেখতে ঠিক এমনই হতে পারে। [2]
বিশৃঙ্খলা ছাড়াই উৎপাদনের প্রাক-প্রক্রিয়াকরণ শুরু করা 🏗️
অনেক মডেল উৎপাদনে ব্যর্থ হয় কারণ মডেলটি "খারাপ", বরং ইনপুট বাস্তবতা পরিবর্তিত হয় - অথবা আপনার পাইপলাইন পরিবর্তন করে।
উৎপাদন-মনস্ক প্রাক-প্রক্রিয়াকরণে সাধারণত অন্তর্ভুক্ত থাকে:
-
সংরক্ষিত আর্টিফ্যাক্ট (এনকোডার ম্যাপিং, স্কেলার প্যারামিটার, টোকেনাইজার কনফিগারেশন) তাই অনুমান ঠিক একই শেখা রূপান্তর ব্যবহার করে [2]
-
কঠোর ইনপুট চুক্তি (প্রত্যাশিত কলাম/প্রকার/পরিসর)
-
স্কিউ এবং ড্রিফট পর্যবেক্ষণ , কারণ উৎপাদন তথ্য হবে [5]
যদি আপনি সুনির্দিষ্ট সংজ্ঞা চান: গুগলের ভার্টেক্স এআই মডেল মনিটরিং প্রশিক্ষণ-পরিবেশন স্কিউ (প্রশিক্ষণ থেকে উৎপাদন বিতরণ বিচ্যুত হয়) এবং ইনফারেন্স ড্রিফ্ট (সময়ের সাথে উৎপাদন বিতরণ পরিবর্তিত হয়) পার্থক্য করে এবং শ্রেণীগত এবং সংখ্যাসূচক উভয় বৈশিষ্ট্যের জন্য পর্যবেক্ষণ সমর্থন করে। [5]
কারণ চমক ব্যয়বহুল। আর মজার ধরণের নয়।.
তুলনা সারণী: সাধারণ প্রিপ্রসেসিং + পর্যবেক্ষণ সরঞ্জাম (এবং এগুলি কাদের জন্য) 🧰
| টুল / লাইব্রেরি | এর জন্য সেরা | দাম | কেন এটি কাজ করে (এবং কিছুটা সততা) |
|---|---|---|---|
| সাইকিট-লার্ন প্রিপ্রসেসিং | ট্যাবুলার এমএল পাইপলাইন | বিনামূল্যে | সলিড এনকোডার + স্কেলার (OneHotEncoder, StandardScaler, ইত্যাদি) এবং অনুমানযোগ্য আচরণ [1] |
| আলিঙ্গন মুখ টোকেনাইজার | এনএলপি ইনপুট প্রস্তুতি | বিনামূল্যে | রান/মডেল জুড়ে ধারাবাহিকভাবে ইনপুট আইডি + মনোযোগ মাস্ক তৈরি করে [3] |
| টর্চভিশন রূপান্তরিত করে | দৃষ্টিশক্তি রূপান্তরিত করে + বৃদ্ধি | বিনামূল্যে | একটি পাইপলাইনে নির্ণায়ক এবং এলোমেলো রূপান্তর মিশ্রিত করার পরিষ্কার উপায় [4] |
| ভার্টেক্স এআই মডেল মনিটরিং | প্রোডে ড্রিফট/স্কু সনাক্তকরণ | পেইড (ক্লাউড) | মনিটরে সীমা অতিক্রম করলে স্কিউ/ড্রিফ্ট এবং সতর্কতা বৈশিষ্ট্য থাকে [5] |
(হ্যাঁ, টেবিলে এখনও মতামত আছে। কিন্তু অন্তত এটি সৎ মতামত 😅)
একটি ব্যবহারিক প্রিপ্রসেসিং চেকলিস্ট যা আপনি আসলে ব্যবহার করতে পারেন 📌
প্রশিক্ষণের আগে
-
একটি ইনপুট স্কিমা সংজ্ঞায়িত করুন (প্রকার, ইউনিট, অনুমোদিত পরিসর)
-
অনুপস্থিত মান এবং সদৃশগুলি অডিট করুন
-
ডেটা সঠিক উপায়ে বিভক্ত করুন (এলোমেলো / সময়-ভিত্তিক / গোষ্ঠীভুক্ত)
-
শুধুমাত্র প্রশিক্ষণের সময় ফিট প্রিপ্রসেসিং (
ফিট/ফিট_ট্রান্সফর্মট্রেনেই থাকে) [2] -
প্রি-প্রসেসিং আর্টিফ্যাক্টগুলি সংরক্ষণ করুন যাতে অনুমান সেগুলি পুনরায় ব্যবহার করতে পারে [2]
প্রশিক্ষণের সময়
-
শুধুমাত্র উপযুক্ত স্থানে এলোমেলো বৃদ্ধি প্রয়োগ করুন (সাধারণত শুধুমাত্র প্রশিক্ষণ বিভক্ত) [4]
-
মূল্যায়নের প্রাক-প্রক্রিয়াকরণ নির্ধারণমূলক রাখুন [4]
-
মডেল পরিবর্তনের মতো প্রিপ্রসেসিং পরিবর্তনগুলি ট্র্যাক করুন (কারণ সেগুলি)
স্থাপনার আগে
-
নিশ্চিত করুন যে অনুমানটি অভিন্ন প্রিপ্রসেসিং পাথ এবং আর্টিফ্যাক্ট ব্যবহার করে [2]
-
ড্রিফ্ট/স্কু মনিটরিং সেট আপ করুন (এমনকি মৌলিক বৈশিষ্ট্য বিতরণ পরীক্ষাও অনেক দূর এগিয়ে যায়) [5]
গভীরে ডুব: প্রি-প্রসেসিংয়ের সাধারণ ভুল (এবং কীভাবে সেগুলি এড়ানো যায়) 🧯
ভুল ১: "আমি দ্রুত সবকিছু স্বাভাবিক করে ফেলব" 😵
যদি আপনি সম্পূর্ণ ডেটাসেটে স্কেলিং প্যারামিটার গণনা করেন, তাহলে আপনি মূল্যায়নের তথ্য ফাঁস করছেন। ট্রেনে ফিট করুন, বাকিগুলো রূপান্তর করুন। [2]
ভুল ২: বিশৃঙ্খলার দিকে ঝুঁকে পড়া বিভাগ 🧩
যদি আপনার ক্যাটাগরি ম্যাপিং প্রশিক্ষণ এবং অনুমানের মধ্যে পরিবর্তিত হয়, তাহলে আপনার মডেল নীরবে বিশ্বকে ভুল বুঝতে পারে। সংরক্ষিত শিল্পকর্মের মাধ্যমে ম্যাপিংগুলি স্থির রাখুন। [2]
ভুল ৩: মূল্যায়নের মধ্যে এলোমেলো বৃদ্ধি 🎲
প্রশিক্ষণের ক্ষেত্রে র্যান্ডম ট্রান্সফর্মেশন অসাধারণ, কিন্তু পারফরম্যান্স পরিমাপ করার সময় এগুলি "গোপনে" থাকা উচিত নয়। (র্যান্ডম মানে র্যান্ডম।) [4]
শেষ মন্তব্য 🧠✨
এআই প্রিপ্রসেসিং হল অগোছালো বাস্তবতাকে সামঞ্জস্যপূর্ণ মডেল ইনপুটে রূপান্তর করার একটি সুশৃঙ্খল শিল্প। এটি পরিষ্কার, এনকোডিং, স্কেলিং, টোকেনাইজেশন, চিত্র রূপান্তর এবং - সবচেয়ে গুরুত্বপূর্ণভাবে - পুনরাবৃত্তিযোগ্য পাইপলাইন এবং শিল্পকর্মগুলিকে অন্তর্ভুক্ত করে।
-
প্রাক-প্রক্রিয়াকরণ ইচ্ছাকৃতভাবে করুন, আকস্মিকভাবে নয়। [2]
-
প্রথমে বিভক্ত করুন, শুধুমাত্র প্রশিক্ষণের সময় রূপান্তর ফিট করুন, লিকেজ এড়ান। [2]
-
মোডালিটি-উপযুক্ত প্রিপ্রসেসিং ব্যবহার করুন (টেক্সটের জন্য টোকেনাইজার, ছবির জন্য ট্রান্সফর্ম)। [3][4]
-
উৎপাদনের স্কিউ/ড্রিফট পর্যবেক্ষণ করুন যাতে আপনার মডেল ধীরে ধীরে অর্থহীনতার দিকে না যায়। [5]
আর যদি কখনও আটকে যান, তাহলে নিজেকে জিজ্ঞাসা করুন:
“আমি যদি আগামীকাল একেবারে নতুন ডেটা ব্যবহার করে এই প্রি-প্রসেসিং ধাপটি চালাই, তাহলে কি তা যুক্তিসঙ্গত হবে?”
যদি উত্তর হয় “উহ… হয়তো?”, তাহলে এটাই আপনার ধারণা 😬
প্রায়শই জিজ্ঞাসিত প্রশ্নাবলী
সহজ ভাষায়, এআই প্রিপ্রসেসিং কী?
এআই প্রিপ্রসেসিং হল পুনরাবৃত্তিযোগ্য ধাপগুলির একটি সেট যা শব্দযুক্ত, উচ্চ-ভেরিয়েন্সের কাঁচা ডেটাকে একটি মডেল যেখান থেকে শিখতে পারে তার সামঞ্জস্যপূর্ণ ইনপুটে রূপান্তরিত করে। এর মধ্যে পরিষ্কারকরণ, বৈধতা, এনকোডিং বিভাগ, সংখ্যাসূচক মান স্কেল করা, পাঠ্য টোকেনাইজ করা এবং চিত্র রূপান্তর প্রয়োগ করা অন্তর্ভুক্ত থাকতে পারে। লক্ষ্য হল প্রশিক্ষণ এবং উৎপাদন অনুমান নিশ্চিত করা যাতে "একই ধরণের" ইনপুট দেখা যায়, যাতে মডেলটি পরে অপ্রত্যাশিত আচরণে না পড়ে।.
উৎপাদনে AI প্রিপ্রসেসিং এত গুরুত্বপূর্ণ কেন?
প্রিপ্রসেসিং গুরুত্বপূর্ণ কারণ মডেলগুলি ইনপুট উপস্থাপনার প্রতি সংবেদনশীল। যদি প্রশিক্ষণের ডেটা স্কেল করা হয়, এনকোড করা হয়, টোকেনাইজ করা হয়, অথবা উৎপাদন ডেটার চেয়ে ভিন্নভাবে রূপান্তরিত করা হয়, তাহলে আপনি ট্রেন/সার্ভ মিসম্যাচ ব্যর্থতা পেতে পারেন যা অফলাইনে ঠিক দেখায় কিন্তু অনলাইনে চুপচাপ ব্যর্থ হয়। শক্তিশালী প্রিপ্রসেসিং পাইপলাইনগুলি শব্দ কমায়, শেখার স্থিতিশীলতা উন্নত করে এবং পুনরাবৃত্তির গতি বাড়ায় কারণ আপনি নোটবুক স্প্যাগেটি জট ছাড়াচ্ছেন না।.
প্রি-প্রসেসিংয়ের সময় আমি কীভাবে ডেটা ফাঁস এড়াতে পারি?
একটি সহজ নিয়ম কাজ করে: ফিট স্টেপ সহ যেকোনো জিনিস শুধুমাত্র প্রশিক্ষণ ডেটার উপর ফিট হতে হবে। এর মধ্যে রয়েছে স্কেলার, এনকোডার এবং টোকেনাইজার যা উপায়, বিভাগ মানচিত্র বা শব্দভান্ডারের মতো পরামিতি শিখে। আপনি প্রথমে বিভক্ত হন, প্রশিক্ষণ বিভক্তিতে ফিট করেন, তারপর লাগানো ট্রান্সফরমার ব্যবহার করে বৈধতা/পরীক্ষা রূপান্তর করেন। লিকেজ বৈধতাকে "জাদুকরী"ভাবে ভালো দেখাতে পারে এবং তারপর উৎপাদন ব্যবহারে ভেঙে পড়তে পারে।
ট্যাবুলার ডেটার জন্য সবচেয়ে সাধারণ প্রিপ্রসেসিং ধাপগুলি কী কী?
ট্যাবুলার ডেটার জন্য, স্বাভাবিক পাইপলাইনে পরিষ্কারকরণ এবং বৈধতা (প্রকার, পরিসর, অনুপস্থিত মান), শ্রেণীগত এনকোডিং (এক-গরম বা ক্রমিক), এবং সংখ্যাসূচক স্কেলিং (মানীকরণ বা সর্বনিম্ন-সর্বোচ্চ) অন্তর্ভুক্ত থাকে। অনেক পাইপলাইন ডোমেন-চালিত বৈশিষ্ট্য ইঞ্জিনিয়ারিং যেমন অনুপাত, রোলিং উইন্ডো বা গণনা যোগ করে। একটি ব্যবহারিক অভ্যাস হল কলাম গ্রুপগুলিকে স্পষ্টভাবে সংজ্ঞায়িত করা (সংখ্যাসূচক বনাম শনাক্তকারী) যাতে আপনার রূপান্তরগুলি সামঞ্জস্যপূর্ণ থাকে।.
টেক্সট মডেলের জন্য প্রিপ্রসেসিং কীভাবে কাজ করে?
টেক্সট প্রিপ্রসেসিং বলতে সাধারণত টোকেনাইজেশনকে টোকেন/সাবওয়ার্ডে রূপান্তর করা, ইনপুট আইডিতে রূপান্তর করা এবং ব্যাচিংয়ের জন্য প্যাডিং/ট্রাঙ্কেশন পরিচালনা করা বোঝায়। অনেক ট্রান্সফরমার ওয়ার্কফ্লো আইডির পাশাপাশি একটি মনোযোগ মুখোশও তৈরি করে। একটি সাধারণ পদ্ধতি হল ইম্প্রোভাইজিংয়ের পরিবর্তে মডেলের প্রত্যাশিত টোকেনাইজার কনফিগারেশন ব্যবহার করা, কারণ টোকেনাইজার সেটিংসের সামান্য পার্থক্য "এটি প্রশিক্ষণ দেয় কিন্তু এটি অপ্রত্যাশিতভাবে আচরণ করে" ফলাফলের দিকে নিয়ে যেতে পারে।.
মেশিন লার্নিংয়ের জন্য ছবি প্রিপ্রসেস করার মধ্যে পার্থক্য কী?
চিত্র প্রিপ্রসেসিং সাধারণত সামঞ্জস্যপূর্ণ আকার এবং পিক্সেল হ্যান্ডলিং নিশ্চিত করে: আকার পরিবর্তন/ক্রপিং, স্বাভাবিকীকরণ এবং নির্ধারক এবং এলোমেলো রূপান্তরের মধ্যে একটি স্পষ্ট বিভাজন। মূল্যায়নের জন্য, রূপান্তরগুলি নির্ধারক হওয়া উচিত যাতে মেট্রিক্স তুলনীয় হয়। প্রশিক্ষণের জন্য, এলোমেলো বৃদ্ধি (এলোমেলো ফসলের মতো) দৃঢ়তা উন্নত করতে পারে, তবে এলোমেলোতা ইচ্ছাকৃতভাবে প্রশিক্ষণ বিভাজনের সাথে সংযুক্ত করা উচিত, মূল্যায়নের সময় দুর্ঘটনাক্রমে ছেড়ে দেওয়া উচিত নয়।.
একটি প্রি-প্রসেসিং পাইপলাইন ভঙ্গুর না হয়ে "ভালো" কেন হয়?
একটি ভালো AI প্রিপ্রসেসিং পাইপলাইন পুনরুৎপাদনযোগ্য, লিকেজ-নিরাপদ এবং পর্যবেক্ষণযোগ্য। পুনরুৎপাদনযোগ্য মানে একই ইনপুট একই আউটপুট উৎপন্ন করে যদি না এলোমেলোতা ইচ্ছাকৃতভাবে বৃদ্ধি করা হয়। লিকেজ-নিরাপদ মানে ফিট ধাপগুলি কখনই বৈধতা/পরীক্ষা স্পর্শ করে না। পর্যবেক্ষণযোগ্য মানে আপনি অনুপস্থিতি, বিভাগ গণনা এবং বৈশিষ্ট্য বিতরণের মতো পরিসংখ্যান পরিদর্শন করতে পারেন তাই ডিবাগিং প্রমাণের উপর ভিত্তি করে, অন্ত্রের অনুভূতির উপর নয়। পাইপলাইনগুলি প্রতিবার অ্যাড-হক নোটবুক সিকোয়েন্সগুলিকে ছাড়িয়ে যায়।.
প্রশিক্ষণ এবং অনুমান প্রিপ্রসেসিং কীভাবে সামঞ্জস্যপূর্ণ রাখব?
মূল কথা হলো, ইনফারেন্স টাইমে একই শেখা জিনিসপত্র পুনঃব্যবহার করা: স্কেলার প্যারামিটার, এনকোডার ম্যাপিং এবং টোকেনাইজার কনফিগারেশন। আপনি একটি ইনপুট চুক্তি (প্রত্যাশিত কলাম, ধরণ এবং ব্যাপ্তি)ও চান যাতে উৎপাদন ডেটা চুপচাপ অবৈধ আকারে প্রবাহিত না হয়। ধারাবাহিকতা কেবল "একই ধাপগুলি করা" নয় - এটি "একই লাগানো প্যারামিটার এবং ম্যাপিং সহ একই ধাপগুলি করা"।
সময়ের সাথে সাথে ড্রিফট এবং স্কিউ-এর মতো প্রিপ্রসেসিং সমস্যাগুলি আমি কীভাবে পর্যবেক্ষণ করতে পারি?
এমনকি একটি শক্ত পাইপলাইন থাকা সত্ত্বেও, উৎপাদন তথ্য পরিবর্তিত হয়। একটি সাধারণ পদ্ধতি হল বৈশিষ্ট্য বিতরণের পরিবর্তনগুলি পর্যবেক্ষণ করা এবং প্রশিক্ষণ-পরিবেশন স্কিউ (প্রশিক্ষণ থেকে উৎপাদন বিচ্যুত হয়) এবং ইনফারেন্স ড্রিফ্ট (সময়ের সাথে সাথে উৎপাদন পরিবর্তন) সম্পর্কে সতর্ক করা। পর্যবেক্ষণ হালকা (মৌলিক বিতরণ পরীক্ষা) বা পরিচালিত (যেমন ভার্টেক্স এআই মডেল মনিটরিং) হতে পারে। লক্ষ্য হল ইনপুট শিফটগুলি ধীরে ধীরে মডেলের কর্মক্ষমতা নষ্ট করার আগে - তাড়াতাড়ি ধরা।.
তথ্যসূত্র
[1] scikit-learn API:
sklearn.preprocessing (এনকোডার, স্কেলার, নরমালাইজেশন) [2] scikit-learn: সাধারণ সমস্যা - ডেটা লিকেজ এবং কীভাবে এটি এড়ানো যায়
[3] Hugging Face Transformers ডক্স: টোকেনাইজার (ইনপুট আইডি, মনোযোগ মাস্ক)
[4] PyTorch Torchvision ডক্স: ট্রান্সফর্ম (রিসাইজ/নরমালাইজ + র্যান্ডম ট্রান্সফর্ম)
[5] Google Cloud Vertex AI ডক্স: মডেল মনিটরিং ওভারভিউ (ফিচার স্কিউ এবং ড্রিফ্ট)