এআই স্কেলেবিলিটি কী?

যদি আপনি কখনও দেখে থাকেন যে কোনও ডেমো মডেল একটি ছোট পরীক্ষামূলক লোড ক্রাশ করছে এবং তারপর প্রকৃত ব্যবহারকারীরা আসার সাথে সাথেই এটিকে ফ্রিজ করছে, তাহলে আপনি ভিলেনের সাথে দেখা করেছেন: স্কেলিং। AI লোভী - ডেটা, কম্পিউট, মেমোরি, ব্যান্ডউইথ - এবং অদ্ভুতভাবে, মনোযোগের জন্য। তাহলে AI স্কেলেবিলিটি আসলে কী, এবং প্রতি সপ্তাহে সবকিছু পুনর্লিখন না করে আপনি কীভাবে এটি পাবেন?

এর পরে আপনি যে প্রবন্ধগুলি পড়তে পছন্দ করতে পারেন:

🔗 এআই পক্ষপাত কী তা সহজভাবে ব্যাখ্যা করা হয়েছে
লুকানো পক্ষপাত কীভাবে AI সিদ্ধান্ত এবং মডেল ফলাফলকে প্রভাবিত করে তা জানুন।

🔗 নতুনদের জন্য নির্দেশিকা: কৃত্রিম বুদ্ধিমত্তা কী?
AI, মূল ধারণা, প্রকার এবং দৈনন্দিন প্রয়োগের সংক্ষিপ্তসার।

🔗 ব্যাখ্যাযোগ্য AI কী এবং কেন এটি গুরুত্বপূর্ণ
ব্যাখ্যাযোগ্য AI কীভাবে স্বচ্ছতা, বিশ্বাস এবং নিয়ন্ত্রক সম্মতি বৃদ্ধি করে তা আবিষ্কার করুন।

🔗 ভবিষ্যদ্বাণীমূলক এআই কী এবং এটি কীভাবে কাজ করে
ভবিষ্যদ্বাণীমূলক AI, সাধারণ ব্যবহারের ক্ষেত্রে, সুবিধা এবং সীমাবদ্ধতাগুলি বুঝুন।

এআই স্কেলেবিলিটি কী? 📈

এআই স্কেলেবিলিটি হলো একটি এআই সিস্টেমের এমন একটি ক্ষমতা, যার মাধ্যমে এটি পারফরম্যান্স, নির্ভরযোগ্যতা এবং খরচকে গ্রহণযোগ্য সীমার মধ্যে রেখে আরও বেশি ডেটা, অনুরোধ, ব্যবহারকারী এবং ব্যবহারের ক্ষেত্র (use cases) সামলাতে পারে। এর জন্য শুধু বড় সার্ভারই যথেষ্ট নয়—বরং প্রয়োজন আরও উন্নত আর্কিটেকচার, যা ল্যাটেন্সি কম রাখে, থ্রুপুট বাড়ায় এবং ব্যবহারের পরিধি বাড়ার সাথে সাথে গুণমানকে সামঞ্জস্যপূর্ণ রাখে। এর মধ্যে রয়েছে ইলাস্টিক ইনফ্রাস্ট্রাকচার, অপটিমাইজড মডেল এবং এমন পর্যবেক্ষণ ক্ষমতা যা আপনাকে স্পষ্টভাবে বলে দেয় ঠিক কোথায় সমস্যা হচ্ছে।

কী ভালো AI স্কেলেবিলিটি তৈরি করে ✅

যখন AI স্কেলেবিলিটি ভালোভাবে সম্পন্ন হয়, তখন আপনি পাবেন:

হঠাৎ বেড়ে যাওয়া বা একটানা লোডের অধীনেও অনুমানযোগ্য ল্যাটেন্সি 🙂
যোগ করা হার্ডওয়্যার বা প্রতিরূপের অনুপাতে মোটামুটিভাবে বৃদ্ধি পাওয়া থ্রুপুট
ব্যয় সাশ্রয় যা অনুরোধ অনুযায়ী ফুলেফেঁপে ওঠে না
ইনপুট বৈচিত্র্য এবং আয়তন বৃদ্ধির সাথে সাথে মানের স্থিতিশীলতা
অটোস্কেলিং, ট্রেসিং এবং সুস্থ SLO-এর জন্য অপারেশনাল শান্ততা

এর আড়ালে এটি সাধারণত অনুভূমিক স্কেলিং, ব্যাচিং, ক্যাশিং, কোয়ান্টাইজেশন, শক্তিশালী পরিবেশন এবং ত্রুটি বাজেটের সাথে সম্পর্কিত চিন্তাশীল রিলিজ নীতিগুলিকে মিশ্রিত করে [5]।

এআই স্কেলেবিলিটি বনাম কর্মক্ষমতা বনাম ক্ষমতা 🧠

পারফরম্যান্স হলো একটি একক অনুরোধ বিচ্ছিন্নভাবে কত দ্রুত সম্পন্ন হয়।
ক্ষমতা হলো আপনি একবারে কতগুলি অনুরোধ পরিচালনা করতে পারবেন।
এআই স্কেলেবিলিটি হলো রিসোর্স যোগ করা অথবা আরও স্মার্ট কৌশল ব্যবহার করা, ক্ষমতা বৃদ্ধি করে এবং কর্মক্ষমতা সামঞ্জস্যপূর্ণ রাখে - আপনার বিল বা পেজার নষ্ট না করে।

ক্ষুদ্র পার্থক্য, বিশাল পরিণতি।

AI তে স্কেল কেন কাজ করে: স্কেলিং আইনের ধারণা 📚

আধুনিক এমএল-এ বহুল ব্যবহৃত একটি ধারণা হলো, মডেলের আকার, ডেটা এবং কম্পিউট যুক্তিসঙ্গত সীমার মধ্যে বাড়ালে লস অনুমানযোগ্য উপায়ে উন্নত হয় । মডেলের আকার এবং প্রশিক্ষণ টোকেনের মধ্যে একটি কম্পিউট-সর্বোত্তম ভারসাম্যও রয়েছে ; কেবল একটিকে বাড়ানোর চেয়ে উভয়কে একসাথে বাড়ানো বেশি কার্যকর। বাস্তবে, এই ধারণাগুলি প্রশিক্ষণ বাজেট, ডেটাসেট পরিকল্পনা এবং পরিবেশনের ক্ষেত্রে আপস নির্ধারণে সহায়তা করে [4]।

দ্রুত অনুবাদ: বড় হলে ভালো হতে পারে, কিন্তু শুধুমাত্র যখন আপনি ইনপুট স্কেল করেন এবং অনুপাতে গণনা করেন - অন্যথায় এটি সাইকেলের উপর ট্র্যাক্টরের টায়ার লাগানোর মতো। এটি তীব্র দেখায়, কোথাও যায় না।

অনুভূমিক বনাম উল্লম্ব: দুটি স্কেলিং লিভার 🔩

উল্লম্ব স্কেলিং: বড় বাক্স, আরও শক্তিশালী GPU, আরও মেমোরি। সহজ, কখনও কখনও দামি। একক-নোড প্রশিক্ষণ, কম-বিলম্বিত অনুমানের জন্য, অথবা যখন আপনার মডেলটি সুন্দরভাবে শার্ড করতে অস্বীকৃতি জানায় তখন এটি ভাল।
অনুভূমিক স্কেলিং: আরও প্রতিলিপি। অটোস্কেলারগুলির । Kubernetes-এ, HorizontalPodAutoscaler ট্র্যাফিক স্পাইকগুলির জন্য আপনার মৌলিক ভিড় নিয়ন্ত্রণের চাহিদার প্রতিক্রিয়ায় পডগুলিকে স্কেল করে [1]।

উপাখ্যান (যৌগিক): একটি হাই-প্রোফাইল লঞ্চের সময়, কেবল সার্ভার-সাইড ব্যাচিং সক্ষম করা এবং অটোস্কেলারকে কোনও ক্লায়েন্ট পরিবর্তন ছাড়াই কিউ ডেপথ স্ট্যাবিলাইজড p95-এ প্রতিক্রিয়া জানাতে দেওয়া। অলঙ্কৃত জয় এখনও জয়।

এআই স্কেলেবিলিটির সম্পূর্ণ স্ট্যাক 🥞

ডেটা লেয়ার: দ্রুত অবজেক্ট স্টোর, ভেক্টর ইনডেক্স এবং স্ট্রিমিং ইনজেশন যা আপনার ট্রেইনারের গতি কমাবে না।
প্রশিক্ষণ স্তর: বিতরণকৃত ফ্রেমওয়ার্ক এবং শিডিউলার যা ডেটা/মডেল সমান্তরালতা, চেকপয়েন্টিং, পুনঃপ্রচেষ্টা পরিচালনা করে।
সার্ভিং লেয়ার: অপ্টিমাইজড রানটাইম, ডায়নামিক ব্যাচিং, পেজড অ্যাটেনশন , ক্যাশিং, টোকেন স্ট্রিমিং। ট্রাইটন এবং ভিএলএলএম এখানে ঘন ঘন হিরো [2][3]।
অর্কেস্ট্রেশন: HPA বা কাস্টম অটোস্কেলারের মাধ্যমে স্থিতিস্থাপকতার জন্য কুবারনেট [1]।
পর্যবেক্ষণযোগ্যতা: ট্রেস, মেট্রিক্স এবং লগ যা ব্যবহারকারীর ভ্রমণ এবং প্রোডাক্টে মডেল আচরণ অনুসরণ করে; আপনার SLO গুলির চারপাশে এগুলি ডিজাইন করুন [5]।
পরিচালনা ও খরচ: অনুরোধ-ভিত্তিক অর্থনীতি, বাজেট এবং অনিয়ন্ত্রিত কাজের চাপ নিয়ন্ত্রণের ব্যবস্থা।

তুলনা সারণী: এআই স্কেলেবিলিটির জন্য সরঞ্জাম এবং প্যাটার্ন 🧰

উদ্দেশ্যপ্রণোদিতভাবে একটু অসম - কারণ বাস্তব জীবন...

টুল / প্যাটার্ন	পাঠকবর্গ	দামের মতো	কেন এটি কাজ করে	মন্তব্য
কুবারনেটস + এইচপিএ	প্ল্যাটফর্ম টিম	ওপেন সোর্স + ইনফ্রা	মেট্রিক্স স্পাইক হিসাবে পডগুলিকে অনুভূমিকভাবে স্কেল করে	কাস্টম মেট্রিক্স সোনার [1]
এনভিআইডিএ ট্রাইটন	ইনফারেন্স SRE	ফ্রি সার্ভার; জিপিইউ $	গতিশীল ব্যাচিং থ্রুপুট বৃদ্ধি করে	`config.pbtxt` এর মাধ্যমে কনফিগার করুন [2]
vLLM (পৃষ্ঠাগত মনোযোগ)	এলএলএম দল	ওপেন সোর্স	দক্ষ কেভি-ক্যাশে পেজিংয়ের মাধ্যমে উচ্চ থ্রুপুট	দীর্ঘ প্রম্পটের জন্য দুর্দান্ত [3]
ONNX রানটাইম / টেনসরআরটি	পারফেক্ট নার্ডস	বিনামূল্যে / বিক্রেতা সরঞ্জাম	কার্নেল-স্তরের অপ্টিমাইজেশন ল্যাটেন্সি কমায়	রপ্তানির পথগুলি জটিল হতে পারে
আরএজি প্যাটার্ন	অ্যাপ টিম	ইনফ্রা + সূচক	জ্ঞানকে পুনরুদ্ধারের জন্য অফলোড করে; সূচককে স্কেল করে	সতেজতার জন্য চমৎকার

গভীর ডুব ১: সুই নাড়াচাড়া করার কৌশল পরিবেশন করা 🚀

ডাইনামিক ব্যাচিং ছোট ছোট অনুমান কলগুলিকে সার্ভারে বৃহত্তর ব্যাচে গোষ্ঠীভুক্ত করে, ক্লায়েন্ট পরিবর্তন ছাড়াই GPU ব্যবহার নাটকীয়ভাবে বৃদ্ধি করে [2]।
পেজড অ্যাটেনশন KV ক্যাশে পেজ করে অনেক বেশি কথোপকথন মেমরিতে রাখে, যা কনকারেন্সির অধীনে থ্রুপুট উন্নত করে [3]।
অনুরোধ একত্রীকরণ ও ক্যাশিং পুনরাবৃত্তিমূলক কাজ এড়াতে সাহায্য করে।
অনুমানমূলক ডিকোডিং এবং টোকেন স্ট্রিমিং অনুভূত বিলম্বিতা হ্রাস করে, এমনকি যদি ওয়াল-ক্লকটি খুব কমই নড়ে।

ডিপ ডাইভ ২: মডেল-স্তরের দক্ষতা - কোয়ান্টাইজ, ডিস্টিল, প্রুন 🧪

কোয়ান্টাইজেশন প্যারামিটারের নির্ভুলতা (যেমন, 8-বিট/4-বিট) হ্রাস করে মেমরি সঙ্কুচিত করে এবং অনুমানের গতি বাড়ায়; পরিবর্তনের পরে সর্বদা কাজের মান পুনর্মূল্যায়ন করুন।
পাতন একজন বড় শিক্ষকের কাছ থেকে জ্ঞান একজন ছোট শিক্ষার্থীর কাছে স্থানান্তর করে যা আপনার হার্ডওয়্যার আসলে পছন্দ করে।
কাঠামোগত ছাঁটাই সবচেয়ে কম অবদান রাখে এমন ওজন/মাথা ছাঁটাই করে।

সত্যি কথা বলতে, এটা অনেকটা আপনার স্যুটকেসের আকার ছোট করার পর আপনার সমস্ত জুতা ফিট থাকার জন্য জোর দেওয়ার মতো। কোন না কোনভাবে, বেশিরভাগ ক্ষেত্রেই এটি ঠিক থাকে।

গভীর ডুব ৩: অশ্রু ছাড়াই ডেটা এবং প্রশিক্ষণ স্কেলিং 🧵

সমান্তরালতার জটিল অংশগুলিকে লুকিয়ে রাখে এমন বিতরণকৃত প্রশিক্ষণ ব্যবহার করুন যাতে আপনি দ্রুত পরীক্ষা-নিরীক্ষা চালাতে পারেন।
স্কেলিং আইনগুলো মনে রাখবেন : মডেল আকার এবং টোকেন বিবেচনা করে বাজেট বরাদ্দ করুন; উভয়কে একসাথে স্কেলিং করা গণনা-দক্ষ [4]।
পাঠ্যক্রম এবং ডেটার গুণমান প্রায়শই ফলাফলের ওপর মানুষের স্বীকারোক্তির চেয়েও বেশি প্রভাব ফেলে। কখনও কখনও আরও বেশি ডেটার চেয়ে ভালো ডেটা বেশি কার্যকর হয়—এমনকি যদি আপনি ইতিমধ্যেই বৃহত্তর গুচ্ছটিকে সাজিয়েও ফেলেন।

গভীর ডুব ৪: জ্ঞানের স্কেলিং কৌশল হিসেবে RAG 🧭

পরিবর্তিত তথ্যের সাথে তাল মিলিয়ে চলার জন্য একটি মডেলকে পুনরায় প্রশিক্ষণ দেওয়ার পরিবর্তে, RAG অনুমানের ভিত্তিতে একটি পুনরুদ্ধার পদক্ষেপ যোগ করে। আপনি মডেলটিকে স্থিতিশীল রাখতে পারেন এবং সূচক এবং পুনরুদ্ধারকারীদের । মার্জিত - এবং প্রায়শই জ্ঞান-ভারী অ্যাপগুলির জন্য সম্পূর্ণ পুনরায় প্রশিক্ষণের তুলনায় সস্তা।

পর্যবেক্ষণযোগ্যতা যার জন্য নিজেই মূল্য দিতে হয় 🕵️♀️

তুমি যা দেখতে পাও না, তা স্কেল করতে পারো না। দুটি অপরিহার্য বিষয়:

মেট্রিক্স : ল্যাটেন্সি পার্সেন্টাইল, কিউ ডেপথ, জিপিইউ মেমরি, ব্যাচের আকার, টোকেন থ্রুপুট, ক্যাশে হিট রেট।
গেটওয়ে → পুনরুদ্ধার → মডেল → পোস্ট-প্রসেসিং জুড়ে একটি একক অনুরোধের ট্রেস । আপনি যা পরিমাপ করেন তা আপনার SLO-এর সাথে সংযুক্ত করুন যাতে ড্যাশবোর্ডগুলি এক মিনিটেরও কম সময়ে প্রশ্নের উত্তর দেয় [5]।

যখন ড্যাশবোর্ডগুলি এক মিনিটেরও কম সময়ের মধ্যে প্রশ্নের উত্তর দেয়, তখন লোকেরা সেগুলি ব্যবহার করে। যখন তারা তা করে না, তখন তারা ভান করে যে তারা উত্তর দেয়।

নির্ভরযোগ্যতা রক্ষাকারী রেলিং: SLO, ত্রুটি বাজেট, সুস্থ রোলআউট 🧯

লেটেন্সি, প্রাপ্যতা এবং ফলাফলের মানের জন্য SLO গুলি সংজ্ঞায়িত করুন এবং রিলিজ বেগের সাথে নির্ভরযোগ্যতার ভারসাম্য বজায় রাখতে ত্রুটি বাজেট ব্যবহার করুন [5]।
ট্র্যাফিক স্প্লিটের পিছনে মোতায়েন করুন, ক্যানারি করুন এবং গ্লোবাল কাটওভারের আগে ছায়া পরীক্ষা করুন। আপনার ভবিষ্যত স্বয়ং খাবার পাঠাবে।

নাটক ছাড়াই খরচ নিয়ন্ত্রণ 💸

স্কেলিং কেবল প্রযুক্তিগত নয়; এটি আর্থিক। ইউনিট অর্থনীতির সাথে GPU ঘন্টা এবং টোকেনগুলিকে প্রথম শ্রেণীর সম্পদ হিসাবে বিবেচনা করুন (প্রতি 1k টোকেন, প্রতি এম্বেডিং, প্রতি ভেক্টর কোয়েরি খরচ)। বাজেট এবং সতর্কতা যোগ করুন; জিনিসগুলি মুছে ফেলা উদযাপন করুন।

এআই স্কেলেবিলিটির একটি সহজ রোডম্যাপ 🗺️

p95 ল্যাটেন্সি, প্রাপ্যতা এবং কাজের নির্ভুলতার জন্য SLO দিয়ে শুরু করুন ; প্রথম দিনে ওয়্যার মেট্রিক্স/ট্রেস [5]।
একটি সার্ভিং স্ট্যাক বেছে নিন : ট্রাইটন, ভিএলএলএম, অথবা সমতুল্য [2][3]।
মডেলটি অপ্টিমাইজ করুন: যেখানে এটি সাহায্য করে সেখানে কোয়ান্টাইজ করুন, দ্রুত কার্নেল সক্ষম করুন, অথবা নির্দিষ্ট কাজের জন্য ডিস্টিল করুন; প্রকৃত মূল্যায়নের মাধ্যমে গুণমান যাচাই করুন।
স্থিতিস্থাপকতার স্থপতি: সঠিক সংকেত, পৃথক পঠন/লেখার পথ এবং স্টেটলেস ইনফারেন্স রেপ্লিকা সহ কুবারনেটস এইচপিএ [1]।
পুনরুদ্ধার গ্রহণ করুন যাতে আপনি প্রতি সপ্তাহে পুনরায় প্রশিক্ষণের পরিবর্তে আপনার সূচক স্কেল করতে পারেন।
খরচের সাথে লুপটি বন্ধ করুন: ইউনিট অর্থনীতি এবং সাপ্তাহিক পর্যালোচনা স্থাপন করুন।

সাধারণ ব্যর্থতার মোড এবং দ্রুত সমাধান 🧨

GPU ৩০% ব্যবহারে, যখন ল্যাটেন্সি খারাপ
- ডায়নামিক ব্যাচিং চালু করুন , ব্যাচ ক্যাপ সাবধানে বাড়ান এবং সার্ভার কনকারেন্সি [2] পুনরায় পরীক্ষা করুন।
দীর্ঘ প্রম্পটের সাথে থ্রুপুট ভেঙে পড়ে
- এমন পরিবেশন ব্যবহার করুন যা পৃষ্ঠাযুক্ত মনোযোগ এবং সর্বাধিক সমবর্তী ক্রমগুলি সুর করে [3]।
অটোস্কেলার ফ্ল্যাপ
- উইন্ডোজ সহ মসৃণ মেট্রিক্স; বিশুদ্ধ CPU [1] এর পরিবর্তে কিউ ডেপথ বা কাস্টম টোকেন-প্রতি-সেকেন্ডে স্কেল করুন।
উৎক্ষেপণের পর খরচ বেড়ে যায়
- অনুরোধ-স্তরের খরচের মেট্রিক্স যোগ করুন, যেখানে নিরাপদ সেখানে কোয়ান্টাইজেশন সক্ষম করুন, শীর্ষ কোয়েরিগুলি ক্যাশে করুন এবং সবচেয়ে খারাপ অপরাধীদের হার-সীমাবদ্ধ করুন।

এআই স্কেলেবিলিটি প্লেবুক: দ্রুত চেকলিস্ট ✅

SLO এবং ত্রুটি বাজেট বিদ্যমান এবং দৃশ্যমান।
মেট্রিক্স: ল্যাটেন্সি, টিপিএস, জিপিইউ মেম, ব্যাচের আকার, টোকেন/গুলি, ক্যাশে হিট
প্রবেশ থেকে মডেল এবং পোস্ট-প্রোক পর্যন্ত ট্রেস
পরিবেশন: ব্যাচিং চালু, কনকারেন্সি টিউন করা, উষ্ণ ক্যাশে
মডেল: কোয়ান্টাইজড বা ডিস্টিলড যেখানে এটি সাহায্য করে
ইনফ্রা: সঠিক সংকেত দিয়ে কনফিগার করা HPA
জ্ঞানের সতেজতার জন্য আহরণের পথ
অর্থনীতির ইউনিট প্রায়শই পর্যালোচনা করা হয়

অনেকদিন পড়িনি এবং শেষ মন্তব্য 🧩

এআই স্কেলেবিলিটি কোনো একটিমাত্র ফিচার বা গোপন সুইচ নয়। এটি একটি প্যাটার্ন ল্যাঙ্গুয়েজ: অটোস্কেলারের মাধ্যমে হরাইজন্টাল স্কেলিং, ইউটিলাইজেশনের জন্য সার্ভার-সাইড ব্যাচিং, মডেল-লেভেল এফিশিয়েন্সি, নলেজ অফলোড করার জন্য রিট্রিভাল, এবং অবজার্ভেবিলিটি যা রোলআউটকে একঘেয়ে করে তোলে। সবাইকে একই সূত্রে বাঁধতে এর সাথে এসএলও (SLO) এবং কস্ট হাইজিন যুক্ত করুন। আপনি প্রথমবারেই এটি নিখুঁতভাবে করতে পারবেন না—কেউই পারে না—কিন্তু সঠিক ফিডব্যাক লুপের মাধ্যমে, আপনার সিস্টেম রাত ২টোর সেই ভয়ের অনুভূতি ছাড়াই বিকশিত হবে 😅

তথ্যসূত্র

[1] কুবারনেটস ডক্স - অনুভূমিক পড অটোস্কেলিং - আরও পড়ুন
[2] NVIDIA Triton - ডায়নামিক ব্যাচার - আরও পড়ুন
[3] vLLM ডক্স - পৃষ্ঠাযুক্ত মনোযোগ - আরও পড়ুন
[4] হফম্যান এবং অন্যান্য (2022) - প্রশিক্ষণ কম্পিউট-অপ্টিমাল লার্জ ল্যাঙ্গুয়েজ মডেল - আরও পড়ুন
[5] গুগল এসআরই ওয়ার্কবুক - এসএলও বাস্তবায়ন - আরও পড়ুন

অফিসিয়াল এআই অ্যাসিস্ট্যান্ট স্টোরে সর্বশেষ এআই খুঁজুন

আমাদের সম্পর্কে

ব্লগে ফিরে যান