সংক্ষিপ্ত উত্তর: একটি AI মডেল স্থাপনের অর্থ হল একটি সার্ভিং প্যাটার্ন (রিয়েল-টাইম, ব্যাচ, স্ট্রিমিং, অথবা এজ) নির্বাচন করা, তারপর পুরো পথটিকে পুনরুৎপাদনযোগ্য, পর্যবেক্ষণযোগ্য, সুরক্ষিত এবং বিপরীতমুখী করা। যখন আপনি সবকিছুর সংস্করণ করেন এবং উৎপাদন-সদৃশ পেলোডগুলিতে p95/p99 ল্যাটেন্সি বেঞ্চমার্ক করেন, তখন আপনি বেশিরভাগ "আমার ল্যাপটপে কাজ করে" ব্যর্থতা এড়িয়ে যান।
মূল বিষয়গুলি:
ডিপ্লয়মেন্ট প্যাটার্ন: টুল ব্যবহার করার আগে রিয়েল-টাইম, ব্যাচ, স্ট্রিমিং, অথবা এজ বেছে নিন।
পুনরুৎপাদনযোগ্যতা: মডেল, বৈশিষ্ট্য, কোড এবং পরিবেশের সংস্করণ তৈরি করুন যাতে ড্রিফট না হয়।
পর্যবেক্ষণযোগ্যতা: ল্যাটেন্সি টেইল, ত্রুটি, স্যাচুরেশন এবং ডেটা বা আউটপুট বিতরণ ক্রমাগত পর্যবেক্ষণ করুন।
নিরাপদ রোলআউট: স্বয়ংক্রিয় রোলব্যাক থ্রেশহোল্ড সহ ক্যানারি, নীল-সবুজ, অথবা ছায়া পরীক্ষা ব্যবহার করুন।
নিরাপত্তা ও গোপনীয়তা: প্রমাণীকরণ, হার সীমা এবং গোপনীয়তা ব্যবস্থাপনা প্রয়োগ করুন এবং লগে PII কমিয়ে আনুন।

এর পরে আপনি যে প্রবন্ধগুলি পড়তে পছন্দ করতে পারেন:
🔗 এআই কর্মক্ষমতা কীভাবে পরিমাপ করা যায়
নির্ভরযোগ্য AI ফলাফলের জন্য মেট্রিক্স, বেঞ্চমার্ক এবং বাস্তব-বিশ্বের পরীক্ষা শিখুন।.
🔗 AI ব্যবহার করে কীভাবে কাজগুলি স্বয়ংক্রিয় করা যায়
প্রম্পট, টুল এবং ইন্টিগ্রেশন ব্যবহার করে পুনরাবৃত্তিমূলক কাজকে কর্মপ্রবাহে পরিণত করুন।.
🔗 এআই মডেলগুলি কীভাবে পরীক্ষা করবেন
মডেলগুলির তুলনা করার জন্য মূল্যায়ন, ডেটাসেট এবং স্কোরিং ডিজাইন করুন।.
🔗 এআই-এর সাথে কীভাবে কথা বলবেন
আরও ভালো প্রশ্ন জিজ্ঞাসা করুন, প্রেক্ষাপট নির্ধারণ করুন এবং দ্রুত স্পষ্ট উত্তর পান।.
১) "স্থাপনা" বলতে আসলে কী বোঝায় (এবং কেন এটি কেবল একটি API নয়) 🧩
যখন লোকেরা "মডেল স্থাপন করুন" বলে, তখন তারা এইগুলির যেকোনো একটি বোঝাতে পারে:
-
একটি এন্ডপয়েন্ট এক্সপোজ করুন যাতে একটি অ্যাপ রিয়েল টাইমে ইনফারেন্স কল করতে পারে ( ভার্টেক্স এআই: একটি মডেলকে একটি এন্ডপয়েন্টে স্থাপন করুন , অ্যামাজন সেজমেকার: রিয়েল-টাইম ইনফারেন্স )
-
ডাটাবেসে ভবিষ্যদ্বাণী আপডেট করার জন্য প্রতি রাতে ব্যাচ স্কোরিং চালান Amazon SageMaker Batch Transform )
-
স্ট্রিম ইনফারেন্স (ঘটনাগুলি ক্রমাগত আসে, ভবিষ্যদ্বাণীগুলি ক্রমাগত বেরিয়ে আসে) ( ক্লাউড ডেটাফ্লো: ঠিক একবার বনাম কমপক্ষে একবার , ক্লাউড ডেটাফ্লো স্ট্রিমিং মোড )
-
এজ ডিপ্লয়মেন্ট (ফোন, ব্রাউজার, এমবেডেড ডিভাইস, অথবা "একটি কারখানার সেই ছোট্ট বাক্স") ( LiterRT অন-ডিভাইস ইনফারেন্স , LiterRT ওভারভিউ )
-
অভ্যন্তরীণ সরঞ্জাম স্থাপন (বিশ্লেষক-মুখী UI, নোটবুক, অথবা নির্ধারিত স্ক্রিপ্ট)
তাই স্থাপনা "মডেলকে অ্যাক্সেসযোগ্য করে তুলুন" কম এবং আরও বেশি কিছু:
-
প্যাকেজিং + পরিবেশন + স্কেলিং + পর্যবেক্ষণ + শাসন + রোলব্যাক ( নীল-সবুজ স্থাপনা )
এটা অনেকটা রেস্তোরাঁ খোলার মতো। অবশ্যই, একটা দারুন খাবার রান্না করা গুরুত্বপূর্ণ। কিন্তু তবুও আপনার বিল্ডিং, কর্মী, রেফ্রিজারেশন, মেনু, সাপ্লাই চেইন এবং ওয়াক-ইন ফ্রিজারে না কাঁদতে কাঁদতে রাতের খাবারের ভিড় সামলানোর একটি উপায় প্রয়োজন। এটি একটি নিখুঁত রূপক নয়... তবে আপনি এটি বুঝতে পেরেছেন। 🍝
২) “কীভাবে এআই মডেল স্থাপন করবেন” এর একটি ভালো সংস্করণ কী তৈরি করে ✅
"ভালো স্থাপনা" সবচেয়ে ভালো উপায়ে বিরক্তিকর। চাপের মধ্যে এটি অনুমানযোগ্যভাবে আচরণ করে, এবং যখন তা হয় না, তখন আপনি এটি দ্রুত নির্ণয় করতে পারেন।.
"ভালো" সাধারণত কেমন দেখায় তা এখানে:
-
পুনরুৎপাদনযোগ্য বিল্ড
একই কোড + একই নির্ভরতা = একই আচরণ। "আমার ল্যাপটপে কাজ করে না" এমন কোনও ভৌতিক ভাব নেই 👻 ( ডকার: কন্টেইনার কী? ) -
স্পষ্ট ইন্টারফেস চুক্তি
ইনপুট, আউটপুট, স্কিমা এবং এজ কেস সংজ্ঞায়িত করা হয়েছে। রাত ২ টায় কোনও সারপ্রাইজ টাইপ নেই। ( OpenAPI: OpenAPI কী? , JSON স্কিমা ) -
বাস্তবতার সাথে মেলে এমন কর্মক্ষমতা।
উৎপাদনের মতো হার্ডওয়্যার এবং বাস্তবসম্মত পেলোডে পরিমাপ করা লেটেন্সি এবং থ্রুপুট। -
দাঁত দিয়ে পর্যবেক্ষণ
মেট্রিক্স, লগ, ট্রেস এবং ড্রিফট চেক যা অ্যাকশন ট্রিগার করে (কেবল ড্যাশবোর্ডই নয়, কেউ খোলে না)। ( এসআরই বুক: মনিটরিং ডিস্ট্রিবিউটেড সিস্টেম ) -
নিরাপদ রোলআউট কৌশল
ক্যানারি বা নীল-সবুজ, সহজ রোলব্যাক, এমন সংস্করণ যার জন্য প্রার্থনার প্রয়োজন হয় না। ( ক্যানারি রিলিজ , নীল-সবুজ স্থাপনা ) -
খরচ সম্পর্কে সচেতনতা
"দ্রুত" দুর্দান্ত 📞💸 -
সিক্রেটস ম্যানেজমেন্ট, অ্যাক্সেস কন্ট্রোল, পিআইআই হ্যান্ডলিং, অডিটেবিলিটিতে সুরক্ষা এবং গোপনীয়তা তৈরি করা হয়েছে কুবারনেটস সিক্রেটস , এনআইএসটি এসপি 800-122 )
যদি তুমি ধারাবাহিকভাবে এগুলো করতে পারো, তাহলে তুমি ইতিমধ্যেই বেশিরভাগ দলের চেয়ে এগিয়ে। সত্যি কথা বলতে।.
৩) সঠিক স্থাপনার ধরণটি বেছে নিন (টুলগুলি বেছে নেওয়ার আগে) 🧠
রিয়েল-টাইম এপিআই অনুমান ⚡
সবচেয়ে ভালো যখন:
-
ব্যবহারকারীদের তাৎক্ষণিক ফলাফলের প্রয়োজন (সুপারিশ, জালিয়াতি পরীক্ষা, চ্যাট, ব্যক্তিগতকরণ)
-
অনুরোধের সময় সিদ্ধান্ত গ্রহণ করা আবশ্যক
সতর্ক থাকা:
-
p99 ল্যাটেন্সি গড়ের চেয়ে বেশি গুরুত্বপূর্ণ ( দ্য টেইল অ্যাট স্কেল , এসআরই বুক: মনিটরিং ডিস্ট্রিবিউটেড সিস্টেমস )
-
অটোস্কেলিং এর জন্য সাবধানে টিউনিং প্রয়োজন ( কুবারনেটস হরিজনন্টাল পড অটোস্কেলিং )
-
ঠান্ডা শুরু হতে পারে গোপনে... যেমন একটি বিড়াল টেবিল থেকে গ্লাস ঠেলে দিচ্ছে ( AWS Lambda execution environment lifecycle )
ব্যাচ স্কোরিং 📦
সবচেয়ে ভালো যখন:
-
ভবিষ্যদ্বাণী বিলম্বিত হতে পারে (রাতারাতি ঝুঁকি স্কোরিং, মন্থন ভবিষ্যদ্বাণী, ETL সমৃদ্ধকরণ) ( Amazon SageMaker Batch Transform )
-
তুমি খরচের দক্ষতা এবং সহজ অপারেশন চাও
সতর্ক থাকা:
-
ডেটা সতেজতা এবং ব্যাকফিল
-
প্রশিক্ষণের সাথে ফিচার লজিক সামঞ্জস্যপূর্ণ রাখা
স্ট্রিমিং ইনফারেন্স 🌊
সবচেয়ে ভালো যখন:
-
আপনি ধারাবাহিকভাবে ইভেন্ট প্রক্রিয়া করেন (IoT, ক্লিকস্ট্রিম, মনিটরিং সিস্টেম)
-
আপনি কঠোর অনুরোধ-প্রতিক্রিয়া ছাড়াই প্রায়-রিয়েল-টাইম সিদ্ধান্ত চান
সতর্ক থাকা:
-
ঠিক একবার বনাম অন্তত একবার শব্দার্থবিদ্যা ( ক্লাউড ডেটাফ্লো: ঠিক একবার বনাম অন্তত একবার )
-
রাজ্য ব্যবস্থাপনা, পুনঃপ্রচেষ্টা, অদ্ভুত সদৃশ
এজ ডিপ্লয়মেন্ট 📱
সবচেয়ে ভালো যখন:
-
নেটওয়ার্ক নির্ভরতা ছাড়াই কম ল্যাটেন্সি ( LiterRT অন-ডিভাইস ইনফারেন্স )
-
গোপনীয়তার সীমাবদ্ধতা
-
অফলাইন পরিবেশ
সতর্ক থাকা:
-
মডেলের আকার, ব্যাটারি, কোয়ান্টাইজেশন, হার্ডওয়্যার ফ্র্যাগমেন্টেশন ( প্রশিক্ষণ-পরবর্তী কোয়ান্টাইজেশন (টেনসরফ্লো মডেল অপ্টিমাইজেশন) )
-
আপডেটগুলি আরও কঠিন (আপনি 30 টি সংস্করণই চান না...)
প্রথমে প্যাটার্নটি বেছে নাও, তারপর স্ট্যাকটি বেছে নাও। নাহলে তুমি একটা বর্গাকার মডেলকে গোলাকার রানটাইমে বাধ্য করবে। অথবা এরকম কিছু। 😬
৪) মডেলটি এমনভাবে প্যাকেজ করা যাতে এটি উৎপাদনের সংস্পর্শে না আসে 📦🧯
এখানেই বেশিরভাগ "সহজ স্থাপনা" নীরবে মারা যায়।.
সংস্করণ সবকিছু (হ্যাঁ, সবকিছু)
-
মডেল আর্টিফ্যাক্ট (ওজন, গ্রাফ, টোকেনাইজার, লেবেল মানচিত্র)
-
বৈশিষ্ট্য যুক্তি (রূপান্তর, স্বাভাবিকীকরণ, এনকোডার)
-
ইনফারেন্স কোড (প্রক্রিয়াকরণের আগে/পরবর্তী)
-
পরিবেশ (পাইথন, CUDA, সিস্টেম লিবস)
একটি সহজ পদ্ধতি যা কাজ করে:
-
মডেলটিকে একটি মুক্তিপ্রাপ্ত শিল্পকর্মের মতো আচরণ করুন
-
এটি একটি সংস্করণ ট্যাগ দিয়ে সংরক্ষণ করুন
-
একটি মডেল কার্ড-ইশ মেটাডেটা ফাইল প্রয়োজন: স্কিমা, মেট্রিক্স, প্রশিক্ষণ ডেটা স্ন্যাপশট নোট, জ্ঞাত সীমাবদ্ধতা ( মডেল রিপোর্টিংয়ের জন্য মডেল কার্ড )
পাত্র সাহায্য করে, কিন্তু তাদের পূজা করো না 🐳
পাত্রগুলি দুর্দান্ত কারণ তারা:
-
ফ্রিজ ডিপেন্ডেন্সি ( ডকার: কন্টেইনার কী? )
-
বিল্ডগুলিকে মানসম্মত করুন
-
স্থাপনার লক্ষ্যমাত্রা সহজ করুন
কিন্তু আপনাকে এখনও পরিচালনা করতে হবে:
-
বেস ইমেজ আপডেট
-
GPU ড্রাইভারের সামঞ্জস্যতা
-
নিরাপত্তা স্ক্যানিং
-
ছবির আকার (কেউ 9GB "হ্যালো ওয়ার্ল্ড" পছন্দ করে না) ( ডকার বিল্ডের সেরা অনুশীলন )
ইন্টারফেসকে স্ট্যান্ডার্ডাইজ করুন
আপনার ইনপুট/আউটপুট ফর্ম্যাট আগে থেকেই ঠিক করুন:
-
সরলতার জন্য JSON (ধীর, কিন্তু বন্ধুত্বপূর্ণ) ( JSON স্কিমা )
-
পারফরম্যান্সের জন্য প্রোটোবফ ( প্রোটোকল বাফার ওভারভিউ )
-
ছবি/অডিওর জন্য ফাইল-ভিত্তিক পেলোড (প্লাস মেটাডেটা)
এবং অনুগ্রহ করে ইনপুটগুলি যাচাই করুন। অবৈধ ইনপুটগুলি "কেন এটি অর্থহীন টিকিট ফেরত দিচ্ছে" এর প্রধান কারণ। ( OpenAPI: OpenAPI কী? , JSON স্কিমা )
৫) পরিবেশনের বিকল্প - "সহজ API" থেকে পূর্ণ মডেল সার্ভার 🧰
দুটি সাধারণ রুট আছে:
বিকল্প A: অ্যাপ সার্ভার + ইনফারেন্স কোড (FastAPI-স্টাইল পদ্ধতি) 🧪
আপনি এমন একটি API লিখবেন যা মডেলটি লোড করবে এবং পূর্বাভাস দেবে। ( FastAPI )
সুবিধা:
-
কাস্টমাইজ করা সহজ
-
সহজ মডেল বা প্রাথমিক পর্যায়ের পণ্যের জন্য দুর্দান্ত
-
সহজ প্রমাণীকরণ, রাউটিং এবং ইন্টিগ্রেশন
অসুবিধা:
-
আপনার নিজস্ব পারফরম্যান্স টিউনিং (ব্যাচিং, থ্রেডিং, জিপিইউ ব্যবহার)
-
তুমি কিছু চাকা নতুন করে তৈরি করবে, হয়তো প্রথমে খারাপভাবে
বিকল্প B: মডেল সার্ভার (টর্চসার্ভ / ট্রাইটন-স্টাইল পদ্ধতি) 🏎️
বিশেষায়িত সার্ভারগুলি পরিচালনা করে:
-
ব্যাচিং ( ট্রাইটন: ডায়নামিক ব্যাচিং এবং সমকালীন মডেল এক্সিকিউশন )
-
কনকারেন্সি ( ট্রাইটন: কনকারেন্ট মডেল এক্সিকিউশন )
-
একাধিক মডেল
-
জিপিইউ দক্ষতা
-
স্ট্যান্ডার্ডাইজড এন্ডপয়েন্ট ( টর্চসার্ভ ডক্স , ট্রাইটন ইনফারেন্স সার্ভার ডক্স )
সুবিধা:
-
বাক্সের বাইরে আরও ভালো পারফরম্যান্স প্যাটার্ন
-
পরিবেশন এবং ব্যবসায়িক যুক্তির মধ্যে পরিষ্কার বিচ্ছেদ
অসুবিধা:
-
অতিরিক্ত কর্মক্ষম জটিলতা
-
কনফিগারেশনটা... অস্বস্তিকর মনে হতে পারে, যেন ঝরনার তাপমাত্রা সামঞ্জস্য করা
একটি হাইব্রিড প্যাটার্ন খুবই সাধারণ:
-
অনুমানের জন্য মডেল সার্ভার ( ট্রাইটন: ডায়নামিক ব্যাচিং )
-
প্রমাণীকরণ, অনুরোধ গঠন, ব্যবসায়িক নিয়ম এবং হার সীমাবদ্ধকরণের জন্য পাতলা API গেটওয়ে ( API গেটওয়ে থ্রটলিং )
৬) তুলনা সারণী - (সৎ অনুভূতি সহ) স্থাপনের জনপ্রিয় উপায় 📊😌
এআই মডেলগুলি কীভাবে স্থাপন করবেন তা নির্ধারণ করার সময় লোকেরা আসলে যে বিকল্পগুলি ব্যবহার করে তার একটি ব্যবহারিক স্ন্যাপশট নীচে দেওয়া হল ।
| হাতিয়ার / পদ্ধতি | পাঠকবর্গ | দাম | কেন এটি কাজ করে |
|---|---|---|---|
| ডকার + ফাস্টএপিআই (বা অনুরূপ) | ছোট দল, স্টার্টআপ | মুক্তমনা | সহজ, নমনীয়, দ্রুত পাঠানো যায় - আপনি প্রতিটি স্কেলিং সমস্যা "অনুভব" করবেন ( ডকার , ফাস্টএপিআই ) |
| কুবারনেটস (DIY) | প্ল্যাটফর্ম টিম | অবকাঠামো-নির্ভর | নিয়ন্ত্রণ + স্কেলেবিলিটি... এছাড়াও, প্রচুর নব, যার মধ্যে কিছু অভিশপ্ত ( Kubernetes HPA ) |
| পরিচালিত এমএল প্ল্যাটফর্ম (ক্লাউড এমএল পরিষেবা) | যেসব দল কম অপারেশন চায় | যত খুশি পেমেন্ট করুন | অন্তর্নির্মিত স্থাপনার কর্মপ্রবাহ, পর্যবেক্ষণ হুক - কখনও কখনও সর্বদা-অন-এন্ডপয়েন্টের জন্য ব্যয়বহুল ( ভার্টেক্স এআই স্থাপনা , সেজমেকার রিয়েল-টাইম ইনফারেন্স ) |
| সার্ভারলেস ফাংশন (হালকা অনুমানের জন্য) | ইভেন্ট-চালিত অ্যাপস | প্রতি ব্যবহারে অর্থ প্রদান করুন | তীব্র ট্র্যাফিকের জন্য দুর্দান্ত - কিন্তু কোল্ড স্টার্ট এবং মডেলের আকার আপনার দিন নষ্ট করতে পারে 😬 ( AWS Lambda কোল্ড স্টার্ট ) |
| এনভিআইডিএ ট্রাইটন ইনফারেন্স সার্ভার | পারফরম্যান্স-কেন্দ্রিক দলগুলি | বিনামূল্যের সফটওয়্যার, অবকাঠামোগত খরচ | চমৎকার GPU ব্যবহার, ব্যাচিং, মাল্টি-মডেল - কনফিগারেশনের জন্য ধৈর্য লাগে ( ট্রাইটন: ডায়নামিক ব্যাচিং ) |
| টর্চসার্ভ | পাইটর্চ-ভারী দল | বিনামূল্যের সফটওয়্যার | শালীন ডিফল্ট পরিবেশন প্যাটার্ন - উচ্চ স্কেলের জন্য টিউনিং প্রয়োজন হতে পারে ( টর্চসার্ভ ডক্স ) |
| বেন্টোএমএল (প্যাকেজিং + পরিবেশন) | এমএল ইঞ্জিনিয়াররা | বিনামূল্যে কোর, অতিরিক্তগুলি পরিবর্তিত হয় | মসৃণ প্যাকেজিং, চমৎকার ডেভেলপার অভিজ্ঞতা - আপনার এখনও ইনফ্রা পছন্দের প্রয়োজন ( স্থাপনার জন্য BentoML প্যাকেজিং ) |
| রে সার্ভ | বিতরণকৃত সিস্টেমের লোকেরা | অবকাঠামো-নির্ভর | আনুভূমিকভাবে স্কেল করা, পাইপলাইনের জন্য ভালো - ছোট প্রকল্পের জন্য "বড়" মনে হয় ( রে সার্ভ ডক্স ) |
সারণী নোট: "মুক্ত" হল বাস্তব জীবনের পরিভাষা। কারণ এটি কখনই বিনামূল্যে হয় না। কোথাও না কোথাও বিল থাকেই, এমনকি যদি তা আপনার ঘুমের জন্যও হয়। 😴
৭) কর্মক্ষমতা এবং স্কেলিং - লেটেন্সি, থ্রুপুট এবং সত্য 🏁
পারফরম্যান্স টিউনিং হলো এমন একটি জায়গা যেখানে স্থাপনা একটি নৈপুণ্যে পরিণত হয়। লক্ষ্য "দ্রুত" নয়। লক্ষ্যটি ধারাবাহিকভাবে যথেষ্ট দ্রুত ।
গুরুত্বপূর্ণ মেট্রিক্স
-
p50 ল্যাটেন্সি : সাধারণ ব্যবহারকারীর অভিজ্ঞতা
-
p95 / p99 ল্যাটেন্সি : রাগ-প্ররোচিত লেজ ( দ্য টেইল অ্যাট স্কেল , এসআরই বুক: মনিটরিং ডিস্ট্রিবিউটেড সিস্টেমস )
-
থ্রুপুট : প্রতি সেকেন্ডে অনুরোধ (অথবা জেনারেটিভ মডেলের জন্য প্রতি সেকেন্ডে টোকেন)
-
ত্রুটির হার : স্পষ্ট, কিন্তু কখনও কখনও উপেক্ষা করা হয়
-
রিসোর্স ইউটিলাইজেশন : সিপিইউ, জিপিইউ, মেমোরি, ভিআরএএম ( এসআরই বুক: মনিটরিং ডিস্ট্রিবিউটেড সিস্টেম )
টানার জন্য সাধারণ লিভার
-
ব্যাচিং
GPU ব্যবহার সর্বাধিক করার জন্য অনুরোধ একত্রিত করুন। থ্রুপুটের জন্য দুর্দান্ত, অতিরিক্ত কাজ করলে ল্যাটেন্সির ক্ষতি হতে পারে। ( ট্রাইটন: ডায়নামিক ব্যাচিং ) -
কোয়ান্টাইজেশন
কম নির্ভুলতা (যেমন INT8) অনুমানের গতি বাড়াতে পারে এবং স্মৃতিশক্তি হ্রাস করতে পারে। নির্ভুলতা কিছুটা হ্রাস করতে পারে। কখনও কখনও, আশ্চর্যজনকভাবে নয়। ( প্রশিক্ষণ-পরবর্তী কোয়ান্টাইজেশন ) -
সংকলন / অপ্টিমাইজেশন
ONNX এক্সপোর্ট, গ্রাফ অপ্টিমাইজার, TensorRT-এর মতো প্রবাহ। শক্তিশালী, কিন্তু ডিবাগিং মসলাদার হতে পারে 🌶️ ( ONNX , ONNX রানটাইম মডেল অপ্টিমাইজেশন ) -
ক্যাশিং
যদি ইনপুটগুলি পুনরাবৃত্তি হয় (অথবা আপনি এম্বেডিংগুলি ক্যাশে করতে পারেন), তাহলে আপনি অনেক কিছু সাশ্রয় করতে পারবেন। -
CPU/GPU ব্যবহার, সারির গভীরতা, অথবা অনুরোধের হারের উপর অটোস্কেলিং Kubernetes HPA )
একটি অদ্ভুত কিন্তু সত্য টিপস: উৎপাদনের মতো পেলোড আকার দিয়ে পরিমাপ করুন। ক্ষুদ্র পরীক্ষামূলক পেলোডগুলি আপনাকে মিথ্যা বলে। তারা বিনয়ের সাথে হাসে এবং পরে আপনার সাথে বিশ্বাসঘাতকতা করে।.
৮) পর্যবেক্ষণ এবং পর্যবেক্ষণযোগ্যতা - অন্ধ হয়ে যাবেন না 👀📈
মডেল মনিটরিং কেবল আপটাইম মনিটরিং নয়। আপনি জানতে চান যে:
-
পরিষেবাটি স্বাস্থ্যকর।
-
মডেলটি আচরণ করছে।
-
তথ্য প্রবাহিত হচ্ছে।
-
ভবিষ্যদ্বাণীগুলি কম বিশ্বাসযোগ্য হয়ে উঠছে ( ভার্টেক্স এআই মডেল মনিটরিং ওভারভিউ , অ্যামাজন সেজমেকার মডেল মনিটর )
কী পর্যবেক্ষণ করতে হবে (ন্যূনতম কার্যকর সেট)
পরিষেবা স্বাস্থ্য
-
অনুরোধের সংখ্যা, ত্রুটির হার, বিলম্বিত বিতরণ ( SRE বই: বিতরণকৃত সিস্টেম পর্যবেক্ষণ )
-
স্যাচুরেশন (CPU/GPU/মেমরি)
-
সারির দৈর্ঘ্য এবং সারিতে সময়
মডেল আচরণ
-
ইনপুট বৈশিষ্ট্য বিতরণ (মৌলিক পরিসংখ্যান)
-
এম্বেডিং নিয়ম (মডেল এম্বেড করার জন্য)
-
আউটপুট বিতরণ (আত্মবিশ্বাস, শ্রেণী মিশ্রণ, স্কোর পরিসর)
-
ইনপুটগুলিতে অসঙ্গতি সনাক্তকরণ (আবর্জনা ভিতরে, আবর্জনা বাইরে)
ডেটা ড্রিফট এবং কনসেপ্ট ড্রিফট
-
ড্রিফট সতর্কতাগুলি কার্যকর হওয়া উচিত ( ভার্টেক্স এআই: মনিটর বৈশিষ্ট্য স্কু এবং ড্রিফ্ট , অ্যামাজন সেজমেকার মডেল মনিটর )
-
সতর্কতামূলক স্প্যাম এড়িয়ে চলুন - এটি মানুষকে সবকিছু উপেক্ষা করতে শেখায়
লগিং, কিন্তু "সবকিছু চিরতরে লগ করুন" পদ্ধতি নয় 🪵
লগ:
-
অনুরোধ আইডি
-
মডেল ভার্সন
-
স্কিমা যাচাইকরণের ফলাফল ( OpenAPI: OpenAPI কী? )
-
ন্যূনতম কাঠামোগত পেলোড মেটাডেটা (রঙিন PII নয়) ( NIST SP 800-122 )
গোপনীয়তার ব্যাপারে সতর্ক থাকুন। আপনি চান না যে আপনার লগগুলি আপনার ডেটা ফাঁস হয়ে যাক। ( NIST SP 800-122 )
৯) সিআই/সিডি এবং রোলআউট কৌশল - মডেলগুলিকে বাস্তব রিলিজের মতো বিবেচনা করুন 🧱🚦
যদি আপনি নির্ভরযোগ্য স্থাপনা চান, তাহলে একটি পাইপলাইন তৈরি করুন। এমনকি একটি সাধারণও।.
একটি দৃঢ় প্রবাহ
-
প্রিপ্রসেসিং এবং পোস্টপ্রসেসিংয়ের জন্য ইউনিট পরীক্ষা
-
একটি পরিচিত ইনপুট-আউটপুট "গোল্ডেন সেট" সহ ইন্টিগ্রেশন পরীক্ষা
-
লোড টেস্ট বেসলাইন (হালকা হলেও)
-
বিল্ড আর্টিফ্যাক্ট (কন্টেইনার + মডেল) ( ডকার বিল্ডের সেরা অনুশীলন )
-
স্টেজিংয়ে স্থাপন করুন
-
ক্যানারি রিলিজ ট্র্যাফিকের একটি ছোট অংশে ( ক্যানারি রিলিজ )
-
ধীরে ধীরে উপরে উঠুন
-
কী থ্রেশহোল্ডে স্বয়ংক্রিয় রোলব্যাক ( নীল-সবুজ স্থাপনা )
আপনার বিচক্ষণতা রক্ষা করে এমন নতুন নতুন প্যাটার্ন তৈরি করুন
-
ক্যানারি : প্রথমে ১-৫% ট্র্যাফিকের জন্য ছেড়ে দিন ( ক্যানারি রিলিজ )
-
নীল-সবুজ : পুরানো সংস্করণের পাশাপাশি নতুন সংস্করণ চালান, প্রস্তুত হলে উল্টে দিন ( নীল-সবুজ স্থাপনা )
-
ছায়া পরীক্ষা : নতুন মডেলে প্রকৃত ট্র্যাফিক পাঠান কিন্তু ফলাফল ব্যবহার করবেন না (মূল্যায়নের জন্য দুর্দান্ত) ( মাইক্রোসফ্ট: ছায়া পরীক্ষা )
এবং মডেল ভার্সন অনুসারে আপনার এন্ডপয়েন্ট বা রুট ভার্সন করুন। ভবিষ্যতে আপনি আপনাকে ধন্যবাদ জানাবেন। বর্তমান আপনিও আপনাকে ধন্যবাদ জানাবেন, কিন্তু নীরবে।.
১০) নিরাপত্তা, গোপনীয়তা, এবং "দয়া করে কিছু ফাঁস করবেন না" 🔐🙃
নিরাপত্তারক্ষীরা সাধারণত দেরিতে আসে, যেন একজন অনামন্ত্রিত অতিথি। তাড়াতাড়ি আমন্ত্রণ জানানোই ভালো।.
ব্যবহারিক চেকলিস্ট
-
প্রমাণীকরণ এবং অনুমোদন (মডেলটি কে কল করতে পারে?)
-
হার সীমাবদ্ধকরণ (অপব্যবহার এবং দুর্ঘটনাজনিত ঝড় থেকে রক্ষা করুন) ( এপিআই গেটওয়ে থ্রটলিং )
-
গোপনীয়তা ব্যবস্থাপনা (কোডে কোন কী নেই, কনফিগ ফাইলেও কোন কী নেই...) ( AWS গোপনীয়তা ব্যবস্থাপক , কুবারনেটস গোপনীয়তা )
-
নেটওয়ার্ক নিয়ন্ত্রণ (প্রাইভেট সাবনেট, সার্ভিস-টু-সার্ভিস নীতি)
-
অডিট লগ (বিশেষ করে সংবেদনশীল ভবিষ্যদ্বাণীর জন্য)
-
ডেটা মিনিমাইজেশন (শুধুমাত্র আপনার যা প্রয়োজন তা সংরক্ষণ করুন) ( NIST SP 800-122 )
যদি মডেলটি ব্যক্তিগত তথ্য স্পর্শ করে:
-
রিড্যাক্ট বা হ্যাশ শনাক্তকারী
-
কাঁচা পেলোড লগ করা এড়িয়ে চলুন ( NIST SP 800-122 )
-
ধরে রাখার নিয়ম নির্ধারণ করুন
-
ডকুমেন্ট ডেটা প্রবাহ (বিরক্তিকর, কিন্তু সুরক্ষামূলক)
এছাড়াও, জেনারেটিভ মডেলগুলির জন্য প্রম্পট ইনজেকশন এবং আউটপুট অপব্যবহার গুরুত্বপূর্ণ হতে পারে। যোগ করুন: ( LLM অ্যাপ্লিকেশনের জন্য OWASP শীর্ষ 10 , OWASP: প্রম্পট ইনজেকশন )
-
ইনপুট স্যানিটাইজেশন নিয়ম
-
উপযুক্ত স্থানে আউটপুট ফিল্টারিং
-
টুল কলিং বা ডাটাবেস অ্যাকশনের জন্য রেলিং
কোনও সিস্টেমই নিখুঁত নয়, তবে আপনি এটিকে কম ভঙ্গুর করতে পারেন।.
১১) সাধারণ ফাঁদ (যাকে সাধারণ ফাঁদও বলা হয়) 🪤
এখানে ক্লাসিকগুলি রয়েছে:
-
প্রশিক্ষণ-সার্ভিং স্কিউ
প্রিপ্রসেসিং প্রশিক্ষণ এবং উৎপাদনের মধ্যে পার্থক্য করে। হঠাৎ করে নির্ভুলতা কমে যায় এবং কেউ জানে না কেন। ( টেন্সরফ্লো ডেটা ভ্যালিডেশন: প্রশিক্ষণ-সার্ভিং স্কিউ সনাক্ত করুন ) -
কোনও স্কিমা বৈধতা নেই
একটি আপস্ট্রিম পরিবর্তন সবকিছু ভেঙে দেয়। সবসময় জোরে জোরে নয়... ( JSON স্কিমা , OpenAPI: OpenAPI কী? ) -
টেল ল্যাটেন্সি
p99 উপেক্ষা করার মাধ্যমেই তারা বেঁচে থাকেন। ( দ্য টেল অ্যাট স্কেল ) -
খরচ ভুলে যাওয়া
আপনার বাড়ির প্রতিটি আলো জ্বালিয়ে রাখার মতো, কিন্তু আলোর বাল্বগুলি অর্থ দিয়ে তৈরি। -
কোনও রোলব্যাক পরিকল্পনা নেই
"আমরা কেবল পুনরায় মোতায়েন করব" কোনও পরিকল্পনা নয়। এটি একটি ট্রেঞ্চ কোট পরা আশা। ( নীল-সবুজ মোতায়েন ) -
শুধুমাত্র আপটাইম মনিটরিং
মডেলটি ভুল থাকা সত্ত্বেও পরিষেবাটি চালু থাকতে পারে। এটি সম্ভবত আরও খারাপ। ( ভার্টেক্স এআই: মনিটর বৈশিষ্ট্য স্কু এবং ড্রিফ্ট , অ্যামাজন সেজমেকার মডেল মনিটর )
যদি তুমি এটা পড়ছো এবং ভাবছো "হ্যাঁ, আমরা দুটো করবো," তাহলে ক্লাবে স্বাগতম। ক্লাবে খাবারের ব্যবস্থা আছে, আর হালকা চাপও আছে। 🍪
১২) উপসংহার - কীভাবে আপনার মন না হারিয়ে AI মডেল স্থাপন করবেন 😄✅
স্থাপনা হলো এমন একটি জায়গা যেখানে AI একটি বাস্তব পণ্য হয়ে ওঠে। এটি আকর্ষণীয় নয়, তবে এটিই যেখানে বিশ্বাস অর্জন করা হয়।.
দ্রুত সংক্ষিপ্তসার
-
প্রথমে আপনার ডিপ্লয়মেন্ট প্যাটার্ন ঠিক করুন (রিয়েল-টাইম, ব্যাচ, স্ট্রিমিং, এজ) 🧭 ( অ্যামাজন সেজমেকার ব্যাচ ট্রান্সফর্ম , ক্লাউড ডেটাফ্লো স্ট্রিমিং মোড , লিটারআরটি অন-ডিভাইস ইনফারেন্স )
-
পুনরুৎপাদনযোগ্যতার জন্য প্যাকেজ (সবকিছুর সংস্করণ, দায়িত্বের সাথে কন্টেইনারাইজ করুন) 📦 ( ডকার কন্টেইনার )
-
কর্মক্ষমতা চাহিদার উপর ভিত্তি করে পরিবেশন কৌশল বেছে নিন (সহজ API বনাম মডেল সার্ভার) 🧰 ( FastAPI , Triton: Dynamic batching )
-
শুধু গড় নয়, p95/p99 ল্যাটেন্সি পরিমাপ করুন 🏁 ( স্কেলে লেজ )
-
পরিষেবা স্বাস্থ্য এবং মডেল আচরণের জন্য পর্যবেক্ষণ যোগ করুন 👀 ( SRE বই: বিতরণকৃত সিস্টেম পর্যবেক্ষণ , ভার্টেক্স এআই মডেল পর্যবেক্ষণ )
-
ক্যানারি বা নীল-সবুজ দিয়ে নিরাপদে রোল আউট করুন, এবং রোলব্যাক সহজ রাখুন 🚦 ( ক্যানারি রিলিজ , নীল-সবুজ ডিপ্লয়মেন্ট )
-
প্রথম দিন থেকেই নিরাপত্তা এবং গোপনীয়তা বজায় রাখুন 🔐 ( AWS সিক্রেটস ম্যানেজার , NIST SP 800-122 )
-
এটিকে বিরক্তিকর, অনুমানযোগ্য এবং নথিভুক্ত রাখুন - বিরক্তিকর সুন্দর 😌
আর হ্যাঁ, এআই মডেলগুলি কীভাবে স্থাপন করবেন প্রথমে জ্বলন্ত বোলিং বলগুলিকে জাগানোর মতো মনে হতে পারে। কিন্তু একবার আপনার পাইপলাইন স্থিতিশীল হয়ে গেলে, এটি অদ্ভুতভাবে তৃপ্তিদায়ক হয়ে ওঠে। অবশেষে একটি এলোমেলো ড্রয়ার সাজানোর মতো... শুধুমাত্র ড্রয়ারটিই উৎপাদন ট্র্যাফিক। 🔥🎳
প্রায়শই জিজ্ঞাসিত প্রশ্নাবলী
উৎপাদনে একটি AI মডেল স্থাপন করার অর্থ কী?
একটি AI মডেল স্থাপনের ক্ষেত্রে সাধারণত একটি পূর্বাভাস API প্রকাশ করার চেয়ে অনেক বেশি কিছু জড়িত থাকে। বাস্তবে, এর মধ্যে রয়েছে মডেল এবং এর নির্ভরতা প্যাকেজিং, একটি পরিবেশন প্যাটার্ন (রিয়েল-টাইম, ব্যাচ, স্ট্রিমিং, বা প্রান্ত) নির্বাচন করা, নির্ভরযোগ্যতার সাথে স্কেলিং করা, স্বাস্থ্য এবং ড্রিফ্ট পর্যবেক্ষণ করা এবং নিরাপদ রোলআউট এবং রোলব্যাক পাথ সেট আপ করা। একটি দৃঢ় স্থাপনা লোডের অধীনে পূর্বাভাসযোগ্যভাবে স্থিতিশীল থাকে এবং কিছু ভুল হয়ে গেলেও নির্ণয়যোগ্য থাকে।.
রিয়েল-টাইম, ব্যাচ, স্ট্রিমিং, অথবা এজ ডিপ্লয়মেন্টের মধ্যে কীভাবে বেছে নেবেন
কখন ভবিষ্যদ্বাণীর প্রয়োজন এবং আপনি যে সীমাবদ্ধতার মধ্যে কাজ করেন তার উপর ভিত্তি করে ডিপ্লয়মেন্ট প্যাটার্ন বেছে নিন। রিয়েল-টাইম API গুলি ইন্টারেক্টিভ অভিজ্ঞতার সাথে খাপ খায় যেখানে ল্যাটেন্সি গুরুত্বপূর্ণ। ব্যাচ স্কোরিং সবচেয়ে ভালো কাজ করে যখন বিলম্ব গ্রহণযোগ্য হয় এবং খরচ দক্ষতার দিকে পরিচালিত করে। স্ট্রিমিং ক্রমাগত ইভেন্ট প্রক্রিয়াকরণের জন্য উপযুক্ত, বিশেষ করে যখন ডেলিভারি সেমান্টিক্স জটিল হয়ে ওঠে। এজ ডিপ্লয়মেন্ট অফলাইন অপারেশন, গোপনীয়তা, অথবা অতি-নিম্ন-লেটেন্সি প্রয়োজনীয়তার জন্য আদর্শ, যদিও আপডেট এবং হার্ডওয়্যার বৈচিত্র্য পরিচালনা করা আরও কঠিন হয়ে পড়ে।.
"আমার ল্যাপটপে কাজ করে" স্থাপনার ব্যর্থতা এড়াতে কী সংস্করণ ব্যবহার করব
ভার্সন কেবল মডেলের ওজনের চেয়েও বেশি কিছু। সাধারণত, আপনার একটি ভার্সনযুক্ত মডেল আর্টিফ্যাক্ট (টোকেনাইজার বা লেবেল ম্যাপ সহ), প্রিপ্রসেসিং এবং ফিচার লজিক, ইনফারেন্স কোড এবং সম্পূর্ণ রানটাইম এনভায়রনমেন্ট (পাইথন/CUDA/সিস্টেম লাইব্রেরি) চাইবে। ট্যাগ করা ভার্সন এবং লাইটওয়েট মেটাডেটা সহ মডেলটিকে একটি রিলিজ আর্টিফ্যাক্ট হিসাবে বিবেচনা করুন যা স্কিমা প্রত্যাশা, মূল্যায়ন নোট এবং জ্ঞাত সীমাবদ্ধতা বর্ণনা করে।.
একটি সাধারণ FastAPI-স্টাইল পরিষেবা বা একটি ডেডিকেটেড মডেল সার্ভার দিয়ে স্থাপন করা হবে কিনা
একটি সহজ অ্যাপ সার্ভার (একটি FastAPI-স্টাইল পদ্ধতি) প্রাথমিক পণ্য বা সহজবোধ্য মডেলের জন্য ভালো কাজ করে কারণ আপনি রাউটিং, প্রমাণীকরণ এবং ইন্টিগ্রেশনের উপর নিয়ন্ত্রণ বজায় রাখেন। একটি মডেল সার্ভার (টর্চসার্ভ বা NVIDIA ট্রাইটন-স্টাইল) বাক্সের বাইরে আরও শক্তিশালী ব্যাচিং, কনকারেন্সি এবং GPU দক্ষতা প্রদান করতে পারে। অনেক দল একটি হাইব্রিডের উপর নির্ভর করে: অনুমানের জন্য একটি মডেল সার্ভার এবং প্রমাণীকরণ, অনুরোধ আকার দেওয়ার এবং হারের সীমার জন্য একটি পাতলা API স্তর।.
নির্ভুলতা নষ্ট না করে কীভাবে ল্যাটেন্সি এবং থ্রুপুট উন্নত করা যায়
বাস্তবসম্মত পেলোড ব্যবহার করে উৎপাদন-সদৃশ হার্ডওয়্যারে p95/p99 ল্যাটেন্সি পরিমাপ করে শুরু করুন, কারণ ছোট পরীক্ষাগুলি বিভ্রান্তিকর হতে পারে। সাধারণ লিভারগুলির মধ্যে রয়েছে ব্যাচিং (ভালো থ্রুপুট, সম্ভাব্য খারাপ ল্যাটেন্সি), কোয়ান্টাইজেশন (ছোট এবং দ্রুত, কখনও কখনও সামান্য নির্ভুলতার সাথে ট্রেড-অফ), সংকলন এবং অপ্টিমাইজেশন ফ্লো (ONNX/TensorRT-এর মতো), এবং পুনরাবৃত্ত ইনপুট বা এম্বেডিং ক্যাশিং। কিউ গভীরতার উপর ভিত্তি করে অটোস্কেলিং টেইল ল্যাটেন্সিটিকে উপরের দিকে ক্রপিং থেকেও আটকাতে পারে।.
"শেষবিন্দু শেষ" এর বাইরে আর কী পর্যবেক্ষণ প্রয়োজন?
আপটাইম যথেষ্ট নয়, কারণ পূর্বাভাসের মান নষ্ট হওয়ার সময় একটি পরিষেবা স্বাস্থ্যকর দেখাতে পারে। সর্বনিম্ন, অনুরোধের পরিমাণ, ত্রুটির হার এবং ল্যাটেন্সি বিতরণ পর্যবেক্ষণ করুন, এবং CPU/GPU/মেমরি এবং কিউ টাইমের মতো স্যাচুরেশন সংকেতও পর্যবেক্ষণ করুন। মডেল আচরণের জন্য, মৌলিক অ্যানোমালি সংকেতের সাথে ইনপুট এবং আউটপুট বিতরণ ট্র্যাক করুন। ড্রিফ্ট চেক যোগ করুন যা নয়েজ অ্যালার্টের পরিবর্তে অ্যাকশন ট্রিগার করে, এবং লগ অনুরোধ আইডি, মডেল সংস্করণ এবং স্কিমা যাচাইকরণ ফলাফল।.
কীভাবে নতুন মডেলের সংস্করণগুলি নিরাপদে প্রকাশ করা যায় এবং দ্রুত পুনরুদ্ধার করা যায়
মডেলগুলিকে সম্পূর্ণ রিলিজের মতো আচরণ করুন, একটি CI/CD পাইপলাইন সহ যা প্রিপ্রসেসিং এবং পোস্টপ্রসেসিং পরীক্ষা করে, একটি "গোল্ডেন সেট" এর বিপরীতে ইন্টিগ্রেশন চেক চালায় এবং একটি লোড বেসলাইন স্থাপন করে। রোলআউটের জন্য, ক্যানারি ধীরে ধীরে ট্র্যাফিক র্যাম্প রিলিজ করে, যখন নীল-সবুজ তাৎক্ষণিক ফলব্যাকের জন্য একটি পুরানো সংস্করণকে লাইভ রাখে। শ্যাডো টেস্টিং ব্যবহারকারীদের প্রভাবিত না করেই বাস্তব ট্র্যাফিকের উপর একটি নতুন মডেল মূল্যায়ন করতে সহায়তা করে। রোলব্যাক একটি প্রথম-শ্রেণীর প্রক্রিয়া হওয়া উচিত, কোনও চিন্তাভাবনা নয়।.
AI মডেল স্থাপন শেখার সময় সবচেয়ে সাধারণ সমস্যাগুলি
প্রশিক্ষণ-পরিবেশন স্কিউ হল ক্লাসিক কেস: প্রি-প্রসেসিং প্রশিক্ষণ এবং উৎপাদনের মধ্যে পার্থক্য করে এবং কর্মক্ষমতা ধীরে ধীরে হ্রাস পায়। আরেকটি ঘন ঘন সমস্যা হল স্কিমা বৈধতা অনুপস্থিতি, যেখানে একটি আপস্ট্রিম পরিবর্তন সূক্ষ্ম উপায়ে ইনপুটগুলিকে ভেঙে দেয়। দলগুলি টেল ল্যাটেন্সিকে অবমূল্যায়ন করে এবং গড়ের উপর অতিরিক্ত ফোকাস করে, খরচ উপেক্ষা করে (অলস GPU গুলি দ্রুত যোগ করে), এবং রোলব্যাক পরিকল্পনা এড়িয়ে যায়। শুধুমাত্র আপটাইম পর্যবেক্ষণ করা বিশেষভাবে ঝুঁকিপূর্ণ, কারণ "উপরে কিন্তু ভুল" ডাউনের চেয়েও খারাপ হতে পারে।.
তথ্যসূত্র
-
অ্যামাজন ওয়েব সার্ভিসেস (AWS) - অ্যামাজন সেজমেকার: রিয়েল-টাইম ইনফারেন্স - docs.aws.amazon.com
-
অ্যামাজন ওয়েব সার্ভিসেস (AWS) - অ্যামাজন সেজমেকার ব্যাচ ট্রান্সফর্ম - docs.aws.amazon.com
-
অ্যামাজন ওয়েব সার্ভিসেস (AWS) - অ্যামাজন সেজমেকার মডেল মনিটর - docs.aws.amazon.com
-
অ্যামাজন ওয়েব সার্ভিসেস (AWS) - API গেটওয়ে অনুরোধ থ্রোটলিং - docs.aws.amazon.com
-
অ্যামাজন ওয়েব সার্ভিসেস (AWS) - AWS সিক্রেটস ম্যানেজার: ভূমিকা - docs.aws.amazon.com
-
অ্যামাজন ওয়েব সার্ভিসেস (AWS) - AWS ল্যাম্বডা এক্সিকিউশন এনভায়রনমেন্ট লাইফসাইকেল - docs.aws.amazon.com
-
গুগল ক্লাউড - ভার্টেক্স এআই: একটি এন্ডপয়েন্টে একটি মডেল স্থাপন করুন - docs.cloud.google.com
-
গুগল ক্লাউড - ভার্টেক্স এআই মডেল মনিটরিং ওভারভিউ - docs.cloud.google.com
-
গুগল ক্লাউড - ভার্টেক্স এআই: স্কিউ এবং ড্রিফ্ট বৈশিষ্ট্য পর্যবেক্ষণ করুন - docs.cloud.google.com
-
গুগল ক্লাউড ব্লগ - ডেটাফ্লো: ঠিক একবার বনাম অন্তত একবার স্ট্রিমিং মোড - cloud.google.com
-
গুগল ক্লাউড - ক্লাউড ডেটাফ্লো স্ট্রিমিং মোড - docs.cloud.google.com
-
গুগল এসআরই বুক - ডিস্ট্রিবিউটেড সিস্টেম মনিটরিং - sre.google
-
গুগল রিসার্চ - দ্য টেইল অ্যাট স্কেল - research.google
-
LiteRT (Google AI) - LiteRT ওভারভিউ - ai.google.dev
-
LiteRT (Google AI) - LiteRT অন-ডিভাইস ইনফারেন্স - ai.google.dev
-
ডকার - কন্টেইনার কী? - docs.docker.com
-
ডকার - ডকার বিল্ডের সেরা অনুশীলন - docs.docker.com
-
কুবারনেটস - কুবারনেটেস সিক্রেটস - kubernetes.io
-
কুবারনেটস - অনুভূমিক পড অটোস্কেলিং - kubernetes.io
-
মার্টিন ফাউলার - ক্যানারি রিলিজ - martinfowler.com
-
মার্টিন ফাউলার - নীল-সবুজ স্থাপনা - martinfowler.com
-
ওপেনএপিআই উদ্যোগ - ওপেনএপিআই কী? - openapis.org
-
JSON স্কিমা - (সাইট রেফারেন্সড) - json-schema.org
-
প্রোটোকল বাফার - প্রোটোকল বাফার ওভারভিউ - protobuf.dev
-
ফাস্টএপিআই - (সাইট রেফারেন্সড) - fastapi.tiangolo.com
-
এনভিআইডিআইএ - ট্রাইটন: ডায়নামিক ব্যাচিং এবং সমকালীন মডেল এক্সিকিউশন - docs.nvidia.com
-
এনভিআইডিআইএ - ট্রাইটন: সমসাময়িক মডেল এক্সিকিউশন - docs.nvidia.com
-
এনভিআইডিআইএ - ট্রাইটন ইনফারেন্স সার্ভার ডক্স - docs.nvidia.com
-
পাইটর্চ - টর্চসার্ভ ডক্স - docs.pytorch.org
-
BentoML - স্থাপনার জন্য প্যাকেজিং - docs.bentoml.com
-
রে - রে সার্ভ ডক্স - docs.ray.io
-
টেনসরফ্লো - প্রশিক্ষণ-পরবর্তী কোয়ান্টাইজেশন (টেনসরফ্লো মডেল অপ্টিমাইজেশন) - tensorflow.org
-
টেনসরফ্লো - টেনসরফ্লো ডেটা ভ্যালিডেশন: প্রশিক্ষণ-পরিবেশনকারী স্কিউ সনাক্ত করুন - tensorflow.org
-
ONNX - (সাইট রেফারেন্সড) - onnx.ai
-
ONNX রানটাইম - মডেল অপ্টিমাইজেশন - onnxruntime.ai
-
NIST (ন্যাশনাল ইনস্টিটিউট অফ স্ট্যান্ডার্ডস অ্যান্ড টেকনোলজি) - NIST SP 800-122 - csrc.nist.gov
-
arXiv - মডেল রিপোর্টিংয়ের জন্য মডেল কার্ড - arxiv.org
-
মাইক্রোসফট - ছায়া পরীক্ষা - microsoft.github.io
-
OWASP - LLM আবেদনের জন্য OWASP শীর্ষ ১০ - owasp.org
-
OWASP GenAI নিরাপত্তা প্রকল্প - OWASP: প্রম্পট ইনজেকশন - genai.owasp.org