এআই স্কেলেবিলিটি কী?

এআই স্কেলেবিলিটি কী?

যদি আপনি কখনও দেখে থাকেন যে কোনও ডেমো মডেল একটি ছোট পরীক্ষামূলক লোড ক্রাশ করছে এবং তারপর প্রকৃত ব্যবহারকারীরা আসার সাথে সাথেই এটিকে ফ্রিজ করছে, তাহলে আপনি ভিলেনের সাথে দেখা করেছেন: স্কেলিং। AI লোভী - ডেটা, কম্পিউট, মেমোরি, ব্যান্ডউইথ - এবং অদ্ভুতভাবে, মনোযোগের জন্য। তাহলে AI স্কেলেবিলিটি আসলে কী, এবং প্রতি সপ্তাহে সবকিছু পুনর্লিখন না করে আপনি কীভাবে এটি পাবেন?

এর পরে আপনি যে প্রবন্ধগুলি পড়তে পছন্দ করতে পারেন:

🔗 এআই পক্ষপাত কী তা সহজভাবে ব্যাখ্যা করা হয়েছে
লুকানো পক্ষপাত কীভাবে AI সিদ্ধান্ত এবং মডেল ফলাফলকে প্রভাবিত করে তা জানুন।

🔗 নতুনদের জন্য নির্দেশিকা: কৃত্রিম বুদ্ধিমত্তা কী?
AI, মূল ধারণা, প্রকার এবং দৈনন্দিন প্রয়োগের সংক্ষিপ্তসার।

🔗 ব্যাখ্যাযোগ্য AI কী এবং কেন এটি গুরুত্বপূর্ণ
ব্যাখ্যাযোগ্য AI কীভাবে স্বচ্ছতা, বিশ্বাস এবং নিয়ন্ত্রক সম্মতি বৃদ্ধি করে তা আবিষ্কার করুন।

🔗 ভবিষ্যদ্বাণীমূলক এআই কী এবং এটি কীভাবে কাজ করে
ভবিষ্যদ্বাণীমূলক AI, সাধারণ ব্যবহারের ক্ষেত্রে, সুবিধা এবং সীমাবদ্ধতাগুলি বুঝুন।


এআই স্কেলেবিলিটি কী? 📈

এআই স্কেলেবিলিটি হলো একটি এআই সিস্টেমের ক্ষমতা যা আরও বেশি ডেটা, অনুরোধ, ব্যবহারকারী এবং ব্যবহারের ক্ষেত্রে কাজ করে এবং কর্মক্ষমতা, নির্ভরযোগ্যতা এবং খরচ গ্রহণযোগ্য সীমার মধ্যে রাখে। কেবল বৃহত্তর সার্ভার নয় - আরও স্মার্ট আর্কিটেকচার যা ল্যাটেন্সি কম রাখে, উচ্চ থ্রুপুট রাখে এবং বক্ররেখা ওঠার সাথে সাথে মান সামঞ্জস্যপূর্ণ রাখে। ইলাস্টিক অবকাঠামো, অপ্টিমাইজড মডেল এবং পর্যবেক্ষণযোগ্যতা সম্পর্কে চিন্তা করুন যা আসলে আপনাকে বলে দেয় যে কী জ্বলছে।

 

এআই স্কেলেবিলিটি

কী ভালো AI স্কেলেবিলিটি তৈরি করে ✅

যখন AI স্কেলেবিলিটি ভালোভাবে সম্পন্ন হয়, তখন আপনি পাবেন:

  • স্পাইকি বা টেকসই লোডের অধীনে অনুমানযোগ্য বিলম্ব

  • যোগ করা হার্ডওয়্যার বা প্রতিরূপের অনুপাতে মোটামুটিভাবে বৃদ্ধি পাওয়া থ্রুপুট

  • খরচের দক্ষতা যা প্রতি অনুরোধে বৃদ্ধি পায় না

  • ইনপুট বৈচিত্র্য এবং আয়তন বৃদ্ধির সাথে সাথে মানের স্থিতিশীলতা

  • অটোস্কেলিং, ট্রেসিং এবং সুস্থ SLO-এর জন্য অপারেশনাল শান্ততা

এর আড়ালে এটি সাধারণত অনুভূমিক স্কেলিং, ব্যাচিং, ক্যাশিং, কোয়ান্টাইজেশন, শক্তিশালী পরিবেশন এবং ত্রুটি বাজেটের সাথে সম্পর্কিত চিন্তাশীল রিলিজ নীতিগুলিকে মিশ্রিত করে [5]।


এআই স্কেলেবিলিটি বনাম কর্মক্ষমতা বনাম ক্ষমতা 🧠

  • পারফরম্যান্স হলো একটি একক অনুরোধ বিচ্ছিন্নভাবে কত দ্রুত সম্পন্ন হয়।

  • ক্ষমতা হলো আপনি একবারে কতগুলি অনুরোধ পরিচালনা করতে পারবেন।

  • এআই স্কেলেবিলিটি হলো রিসোর্স যোগ করা অথবা আরও স্মার্ট কৌশল ব্যবহার করা, ক্ষমতা বৃদ্ধি করে এবং কর্মক্ষমতা সামঞ্জস্যপূর্ণ রাখে - আপনার বিল বা পেজার নষ্ট না করে।

ক্ষুদ্র পার্থক্য, বিশাল পরিণতি।


AI তে স্কেল কেন কাজ করে: স্কেলিং আইনের ধারণা 📚

মডেলের আকার, ডেটা স্কেল করার সময় এবং কারণের মধ্যে গণনা করার সময় ক্ষতি অনুমানযোগ্য উপায়ে বৃদ্ধি পায় গণনা-অনুকূল ভারসাম্যও রয়েছে ; উভয়কে একসাথে স্কেল করার চেয়ে কেবল একটি স্কেল করার চেয়ে বেশি। বাস্তবে, এই ধারণাগুলি প্রশিক্ষণ বাজেট, ডেটাসেট পরিকল্পনা এবং পরিবেশন ট্রেড-অফগুলিকে অবহিত করে [4]।

দ্রুত অনুবাদ: বড় হলে ভালো হতে পারে, কিন্তু শুধুমাত্র যখন আপনি ইনপুট স্কেল করেন এবং অনুপাতে গণনা করেন - অন্যথায় এটি সাইকেলের উপর ট্র্যাক্টরের টায়ার লাগানোর মতো। এটি তীব্র দেখায়, কোথাও যায় না।


অনুভূমিক বনাম উল্লম্ব: দুটি স্কেলিং লিভার 🔩

  • উল্লম্ব স্কেলিং : বড় বাক্স, আরও শক্তিশালী GPU, আরও মেমোরি। সহজ, কখনও কখনও দামি। একক-নোড প্রশিক্ষণ, কম-বিলম্বিত অনুমানের জন্য, অথবা যখন আপনার মডেলটি সুন্দরভাবে শার্ড করতে অস্বীকৃতি জানায় তখন এটি ভাল।

  • অনুভূমিক স্কেলিং : আরও প্রতিলিপি। অটোস্কেলারগুলির । Kubernetes-এ, HorizontalPodAutoscaler ট্র্যাফিক স্পাইকগুলির জন্য আপনার মৌলিক ভিড় নিয়ন্ত্রণের চাহিদার প্রতিক্রিয়ায় পডগুলিকে স্কেল করে [1]।

উপাখ্যান (যৌগিক): একটি হাই-প্রোফাইল লঞ্চের সময়, কেবল সার্ভার-সাইড ব্যাচিং সক্ষম করা এবং অটোস্কেলারকে কোনও ক্লায়েন্ট পরিবর্তন ছাড়াই কিউ ডেপথ স্ট্যাবিলাইজড p95-এ প্রতিক্রিয়া জানাতে দেওয়া। অলঙ্কৃত জয় এখনও জয়।


এআই স্কেলেবিলিটির সম্পূর্ণ স্ট্যাক 🥞

  1. ডেটা স্তর : দ্রুত অবজেক্ট স্টোর, ভেক্টর ইনডেক্স এবং স্ট্রিমিং ইনজেশন যা আপনার প্রশিক্ষকদের থ্রোটল করবে না।

  2. প্রশিক্ষণ স্তর : বিতরণকৃত ফ্রেমওয়ার্ক এবং শিডিউলার যা ডেটা/মডেল সমান্তরালতা, চেকপয়েন্টিং, পুনঃপ্রচেষ্টা পরিচালনা করে।

  3. সার্ভিং লেয়ার : অপ্টিমাইজড রানটাইম, ডায়নামিক ব্যাচিং , পেজড অ্যাটেনশন , ক্যাশিং, টোকেন স্ট্রিমিং। ট্রাইটন এবং ভিএলএলএম এখানে ঘন ঘন হিরো [2][3]।

  4. অর্কেস্ট্রেশন : HPA বা কাস্টম অটোস্কেলারের মাধ্যমে স্থিতিস্থাপকতার জন্য কুবারনেট [1]।

  5. পর্যবেক্ষণযোগ্যতা : ট্রেস, মেট্রিক্স এবং লগ যা ব্যবহারকারীর ভ্রমণ এবং প্রোডাক্টে মডেল আচরণ অনুসরণ করে; আপনার SLO গুলির চারপাশে এগুলি ডিজাইন করুন [5]।

  6. শাসনব্যবস্থা এবং খরচ : প্রতি-অনুরোধ অর্থনীতি, বাজেট, এবং চলমান কাজের চাপের জন্য কিল-সুইচ।


তুলনা সারণী: এআই স্কেলেবিলিটির জন্য সরঞ্জাম এবং প্যাটার্ন 🧰

উদ্দেশ্যপ্রণোদিতভাবে একটু অসম - কারণ বাস্তব জীবন...

টুল / প্যাটার্ন পাঠকবর্গ দামের মতো কেন এটি কাজ করে মন্তব্য
কুবারনেটস + এইচপিএ প্ল্যাটফর্ম টিম ওপেন সোর্স + ইনফ্রা মেট্রিক্স স্পাইক হিসাবে পডগুলিকে অনুভূমিকভাবে স্কেল করে কাস্টম মেট্রিক্স সোনার [1]
এনভিআইডিএ ট্রাইটন ইনফারেন্স SRE ফ্রি সার্ভার; জিপিইউ $ গতিশীল ব্যাচিং থ্রুপুট বৃদ্ধি করে config.pbtxt এর মাধ্যমে কনফিগার করুন [2]
vLLM (পৃষ্ঠাগত মনোযোগ) এলএলএম দল ওপেন সোর্স দক্ষ কেভি-ক্যাশে পেজিংয়ের মাধ্যমে উচ্চ থ্রুপুট দীর্ঘ প্রম্পটের জন্য দুর্দান্ত [3]
ONNX রানটাইম / টেনসরআরটি পারফেক্ট নার্ডস বিনামূল্যে / বিক্রেতা সরঞ্জাম কার্নেল-স্তরের অপ্টিমাইজেশন ল্যাটেন্সি কমায় রপ্তানির পথগুলি জটিল হতে পারে
আরএজি প্যাটার্ন অ্যাপ টিম ইনফ্রা + সূচক জ্ঞানকে পুনরুদ্ধারের জন্য অফলোড করে; সূচককে স্কেল করে সতেজতার জন্য চমৎকার

গভীর ডুব ১: সুই নাড়াচাড়া করার কৌশল পরিবেশন করা 🚀

  • ডাইনামিক ব্যাচিং ছোট ছোট অনুমান কলগুলিকে সার্ভারে বৃহত্তর ব্যাচে গোষ্ঠীভুক্ত করে, ক্লায়েন্ট পরিবর্তন ছাড়াই GPU ব্যবহার নাটকীয়ভাবে বৃদ্ধি করে [2]।

  • পেজড অ্যাটেনশন KV ক্যাশে পেজ করে অনেক বেশি কথোপকথন মেমরিতে রাখে, যা কনকারেন্সির অধীনে থ্রুপুট উন্নত করে [3]।

  • কোলেসিং এবং ক্যাশিংয়ের অনুরোধ করুন, ডুপ্লিকেট কাজ এড়িয়ে চলুন।

  • অনুমানমূলক ডিকোডিং এবং টোকেন স্ট্রিমিং অনুভূত বিলম্বিতা হ্রাস করে, এমনকি যদি ওয়াল-ক্লকটি খুব কমই নড়ে।


ডিপ ডাইভ ২: মডেল-স্তরের দক্ষতা - কোয়ান্টাইজ, ডিস্টিল, প্রুন 🧪

  • কোয়ান্টাইজেশন প্যারামিটারের নির্ভুলতা (যেমন, 8-বিট/4-বিট) হ্রাস করে মেমরি সঙ্কুচিত করে এবং অনুমানের গতি বাড়ায়; পরিবর্তনের পরে সর্বদা কাজের মান পুনর্মূল্যায়ন করুন।

  • পাতন একজন বড় শিক্ষকের কাছ থেকে জ্ঞান একজন ছোট শিক্ষার্থীর কাছে স্থানান্তর করে যা আপনার হার্ডওয়্যার আসলে পছন্দ করে।

  • কাঠামোগত ছাঁটাই সবচেয়ে কম অবদান রাখে এমন ওজন/মাথা ছাঁটাই করে।

সত্যি কথা বলতে, এটা অনেকটা আপনার স্যুটকেসের আকার ছোট করার পর আপনার সমস্ত জুতা ফিট থাকার জন্য জোর দেওয়ার মতো। কোন না কোনভাবে, বেশিরভাগ ক্ষেত্রেই এটি ঠিক থাকে।


গভীর ডুব ৩: অশ্রু ছাড়াই ডেটা এবং প্রশিক্ষণ স্কেলিং 🧵

  • সমান্তরালতার জটিল অংশগুলিকে লুকিয়ে রাখে এমন বিতরণকৃত প্রশিক্ষণ ব্যবহার করুন যাতে আপনি দ্রুত পরীক্ষা-নিরীক্ষা চালাতে পারেন।

  • স্কেলিং আইনগুলো মনে রাখবেন : মডেল আকার এবং টোকেন বিবেচনা করে বাজেট বরাদ্দ করুন; উভয়কে একসাথে স্কেলিং করা গণনা-দক্ষ [4]।

  • পাঠ্যক্রম এবং তথ্যের মান প্রায়শই ফলাফলকে মানুষের স্বীকার করার চেয়ে বেশি পরিবর্তন করে। ভালো তথ্য কখনও কখনও বেশি তথ্যকে ছাড়িয়ে যায় - এমনকি যদি আপনি ইতিমধ্যেই বড় ক্লাস্টার অর্ডার করে থাকেন।


গভীর ডুব ৪: জ্ঞানের স্কেলিং কৌশল হিসেবে RAG 🧭

পরিবর্তিত তথ্যের সাথে তাল মিলিয়ে চলার জন্য একটি মডেলকে পুনরায় প্রশিক্ষণ দেওয়ার পরিবর্তে, RAG অনুমানের ভিত্তিতে একটি পুনরুদ্ধার পদক্ষেপ যোগ করে। আপনি মডেলটিকে স্থিতিশীল রাখতে পারেন এবং সূচক এবং পুনরুদ্ধারকারীদের । মার্জিত - এবং প্রায়শই জ্ঞান-ভারী অ্যাপগুলির জন্য সম্পূর্ণ পুনরায় প্রশিক্ষণের তুলনায় সস্তা।


পর্যবেক্ষণযোগ্যতা যার জন্য নিজেই মূল্য দিতে হয় 🕵️♀️

তুমি যা দেখতে পাও না, তা স্কেল করতে পারো না। দুটি অপরিহার্য বিষয়:

  • মেট্রিক্স : ল্যাটেন্সি পার্সেন্টাইল, কিউ ডেপথ, জিপিইউ মেমরি, ব্যাচের আকার, টোকেন থ্রুপুট, ক্যাশে হিট রেট।

  • ট্রেস । আপনার পরিমাপ আপনার SLO-এর সাথে সংযুক্ত করুন যাতে ড্যাশবোর্ডগুলি এক মিনিটেরও কম সময়ে প্রশ্নের উত্তর দিতে পারে [5]।

যখন ড্যাশবোর্ডগুলি এক মিনিটেরও কম সময়ের মধ্যে প্রশ্নের উত্তর দেয়, তখন লোকেরা সেগুলি ব্যবহার করে। যখন তারা তা করে না, তখন তারা ভান করে যে তারা উত্তর দেয়।


নির্ভরযোগ্যতা রক্ষাকারী রেলিং: SLO, ত্রুটি বাজেট, সুস্থ রোলআউট 🧯

  • SLO গুলি সংজ্ঞায়িত করুন এবং রিলিজ বেগের সাথে নির্ভরযোগ্যতার ভারসাম্য বজায় রাখতে ত্রুটি বাজেট

  • ট্র্যাফিক স্প্লিটের পিছনে মোতায়েন করুন, ক্যানারি করুন এবং গ্লোবাল কাটওভারের আগে ছায়া পরীক্ষা করুন। আপনার ভবিষ্যত স্বয়ং খাবার পাঠাবে।


নাটক ছাড়াই খরচ নিয়ন্ত্রণ 💸

স্কেলিং কেবল প্রযুক্তিগত নয়; এটি আর্থিক। ইউনিট অর্থনীতির সাথে GPU ঘন্টা এবং টোকেনগুলিকে প্রথম শ্রেণীর সম্পদ হিসাবে বিবেচনা করুন (প্রতি 1k টোকেন, প্রতি এম্বেডিং, প্রতি ভেক্টর কোয়েরি খরচ)। বাজেট এবং সতর্কতা যোগ করুন; জিনিসগুলি মুছে ফেলা উদযাপন করুন।


এআই স্কেলেবিলিটির একটি সহজ রোডম্যাপ 🗺️

  1. p95 ল্যাটেন্সি, প্রাপ্যতা এবং কাজের নির্ভুলতার জন্য SLO দিয়ে শুরু করুন

  2. একটি সার্ভিং স্ট্যাক বেছে নিন : ট্রাইটন, ভিএলএলএম, অথবা সমতুল্য [2][3]।

  3. মডেলটি অপ্টিমাইজ করুন : যেখানে এটি সাহায্য করে সেখানে কোয়ান্টাইজ করুন, দ্রুত কার্নেল সক্ষম করুন, অথবা নির্দিষ্ট কাজের জন্য ডিস্টিল করুন; প্রকৃত মূল্যায়নের মাধ্যমে গুণমান যাচাই করুন।

  4. স্থিতিস্থাপকতার স্থপতি : সঠিক সংকেত, পৃথক পঠন/লেখার পথ এবং স্টেটলেস ইনফারেন্স রেপ্লিকা সহ কুবারনেটস এইচপিএ [1]।

  5. পুনরুদ্ধার গ্রহণ করুন যাতে আপনি প্রতি সপ্তাহে পুনরায় প্রশিক্ষণের পরিবর্তে আপনার সূচক স্কেল করতে পারেন।

  6. খরচের সাথে লুপটি বন্ধ করুন : ইউনিট অর্থনীতি এবং সাপ্তাহিক পর্যালোচনা স্থাপন করুন।


সাধারণ ব্যর্থতার মোড এবং দ্রুত সমাধান 🧨

  • GPU ৩০% ব্যবহারে, যখন ল্যাটেন্সি খারাপ

    • ডায়নামিক ব্যাচিং চালু করুন , ব্যাচ ক্যাপ সাবধানে বাড়ান এবং সার্ভার কনকারেন্সি [2] পুনরায় পরীক্ষা করুন।

  • দীর্ঘ প্রম্পটের সাথে থ্রুপুট ভেঙে পড়ে

    • এমন পরিবেশন ব্যবহার করুন যা পৃষ্ঠাযুক্ত মনোযোগ এবং সর্বাধিক সমবর্তী ক্রমগুলি সুর করে [3]।

  • অটোস্কেলার ফ্ল্যাপ

    • উইন্ডোজ সহ মসৃণ মেট্রিক্স; বিশুদ্ধ CPU [1] এর পরিবর্তে কিউ ডেপথ বা কাস্টম টোকেন-প্রতি-সেকেন্ডে স্কেল করুন।

  • উৎক্ষেপণের পর খরচ বেড়ে যায়

    • অনুরোধ-স্তরের খরচের মেট্রিক্স যোগ করুন, যেখানে নিরাপদ সেখানে কোয়ান্টাইজেশন সক্ষম করুন, শীর্ষ কোয়েরিগুলি ক্যাশে করুন এবং সবচেয়ে খারাপ অপরাধীদের হার-সীমাবদ্ধ করুন।


এআই স্কেলেবিলিটি প্লেবুক: দ্রুত চেকলিস্ট ✅

  • SLO এবং ত্রুটি বাজেট বিদ্যমান এবং দৃশ্যমান।

  • মেট্রিক্স: ল্যাটেন্সি, টিপিএস, জিপিইউ মেম, ব্যাচের আকার, টোকেন/গুলি, ক্যাশে হিট

  • প্রবেশ থেকে মডেল এবং পোস্ট-প্রোক পর্যন্ত ট্রেস

  • পরিবেশন: ব্যাচিং চালু, কনকারেন্সি টিউন করা, উষ্ণ ক্যাশে

  • মডেল: কোয়ান্টাইজড বা ডিস্টিলড যেখানে এটি সাহায্য করে

  • ইনফ্রা: সঠিক সংকেত দিয়ে কনফিগার করা HPA

  • জ্ঞানের সতেজতার জন্য আহরণের পথ

  • অর্থনীতির ইউনিট প্রায়শই পর্যালোচনা করা হয়


অনেকদিন পড়িনি এবং শেষ মন্তব্য 🧩

এআই স্কেলেবিলিটি কোনও একক বৈশিষ্ট্য বা গোপন সুইচ নয়। এটি একটি প্যাটার্ন ভাষা: অটোস্কেলার সহ অনুভূমিক স্কেলিং, ব্যবহারের জন্য সার্ভার-সাইড ব্যাচিং, মডেল-স্তরের দক্ষতা, জ্ঞান অফলোড করার জন্য পুনরুদ্ধার এবং পর্যবেক্ষণযোগ্যতা যা রোলআউটগুলিকে বিরক্তিকর করে তোলে। সকলকে সারিবদ্ধ রাখার জন্য SLO ছিটিয়ে দিন এবং স্বাস্থ্যবিধি খরচ করুন। আপনি প্রথমবার এটি নিখুঁত করতে পারবেন না - কেউ করে না - তবে সঠিক প্রতিক্রিয়া লুপগুলির সাথে, আপনার সিস্টেম রাত ২ টায় ঠান্ডা-ঘামের অনুভূতি ছাড়াই বৃদ্ধি পাবে 😅


তথ্যসূত্র

[1] কুবারনেটস ডক্স - অনুভূমিক পড অটোস্কেলিং - আরও পড়ুন
[2] NVIDIA Triton - ডায়নামিক ব্যাচার - আরও পড়ুন
[3] vLLM ডক্স - পৃষ্ঠাযুক্ত মনোযোগ - আরও পড়ুন
[4] হফম্যান এবং অন্যান্য (2022) - প্রশিক্ষণ কম্পিউট-অপ্টিমাল লার্জ ল্যাঙ্গুয়েজ মডেল - আরও পড়ুন
[5] গুগল এসআরই ওয়ার্কবুক - এসএলও বাস্তবায়ন - আরও পড়ুন

অফিসিয়াল এআই অ্যাসিস্ট্যান্ট স্টোরে সর্বশেষ এআই খুঁজুন

আমাদের সম্পর্কে

ব্লগে ফিরে যান