সংক্ষিপ্ত উত্তর: AI আপস্কেলিং একটি মডেলকে কম এবং উচ্চ-রেজোলিউশনের ছবি জোড়ায় প্রশিক্ষণ দিয়ে কাজ করে, তারপর আপস্কেলিং চলাকালীন বিশ্বাসযোগ্য অতিরিক্ত পিক্সেল পূর্বাভাস দেওয়ার জন্য এটি ব্যবহার করে। যদি মডেলটি প্রশিক্ষণের সময় একই রকম টেক্সচার বা মুখ দেখে থাকে, তবে এটি বিশ্বাসযোগ্য বিশদ যোগ করতে পারে; যদি না দেখে থাকে, তবে এটি হ্যালো, মোমের ত্বক বা ভিডিওতে ঝিকিমিকির মতো শিল্পকর্মগুলিকে "হ্যালুসিনেট" করতে পারে।
মূল বিষয়গুলি:
ভবিষ্যদ্বাণী : মডেলটি বাস্তবতার নিশ্চিত পুনর্গঠন নয়, বরং সম্ভাব্য বিশদ তৈরি করে।
মডেল পছন্দ : সিএনএনগুলি সাধারণত আরও স্থিতিশীল হয়; জিএএনগুলি আরও তীক্ষ্ণ দেখাতে পারে তবে বৈশিষ্ট্যগুলি আবিষ্কার করার ঝুঁকি নিতে পারে।
শিল্পকর্ম পরীক্ষা : বলয়, পুনরাবৃত্ত টেক্সচার, "প্রায় অক্ষর" এবং প্লাস্টিকের মতো মুখের দিকে নজর রাখুন।
ভিডিও স্থিতিশীলতা : টেম্পোরাল পদ্ধতি ব্যবহার করুন, নাহলে ফ্রেম-টু-ফ্রেম ঝিলমিল এবং ড্রিফট দেখতে পাবেন।
উচ্চ-বাঁধামূলক ব্যবহার : যদি নির্ভুলতা গুরুত্বপূর্ণ হয়, তাহলে প্রক্রিয়াকরণ প্রকাশ করুন এবং ফলাফলগুলিকে দৃষ্টান্তমূলক হিসাবে বিবেচনা করুন।

তুমি হয়তো এটা দেখেছো: একটা ছোট, মুচমুচে ছবি এতটাই খাস্তা হয়ে যায় যে প্রিন্ট, স্ট্রিম বা উপস্থাপনায় ফেলে দেওয়া যায় যে কোনওরকম ঝাঁকুনি ছাড়াই। এটা প্রতারণার মতো মনে হয়। আর - সবচেয়ে ভালোভাবে - এটা একরকম 😅
তাহলে, AI Upscaling কীভাবে কাজ করে তা "কম্পিউটার বিস্তারিত তথ্য বৃদ্ধি করে" (হাত-তরঙ্গায়িত) এর চেয়ে আরও নির্দিষ্ট কিছুতে নেমে আসে এবং "একটি মডেল অনেক উদাহরণ থেকে শেখা প্যাটার্নের উপর ভিত্তি করে সম্ভাব্য উচ্চ-রেজোলিউশন কাঠামোর ভবিষ্যদ্বাণী করে" ( Deep Learning for Image Super-Resolution: A Survey ) এর কাছাকাছি। ভবিষ্যদ্বাণীর সেই ধাপটিই পুরো খেলা - এবং এই কারণেই AI Upscaling অত্যাশ্চর্য দেখাতে পারে... অথবা একটু প্লাস্টিকের... অথবা আপনার বিড়ালের বোনাস গোঁফের মতো।
এর পরে আপনি যে প্রবন্ধগুলি পড়তে পছন্দ করতে পারেন:
🔗 এআই কীভাবে কাজ করে
AI-তে মডেল, ডেটা এবং অনুমানের মূল বিষয়গুলি শিখুন।.
🔗 AI কীভাবে শেখে
দেখুন কিভাবে প্রশিক্ষণের তথ্য এবং প্রতিক্রিয়া সময়ের সাথে সাথে মডেলের কর্মক্ষমতা উন্নত করে।.
🔗 AI কীভাবে অসঙ্গতি সনাক্ত করে
প্যাটার্নের বেসলাইনগুলি বুঝুন এবং কীভাবে AI দ্রুত অস্বাভাবিক আচরণকে চিহ্নিত করে।.
🔗 AI কীভাবে প্রবণতার পূর্বাভাস দেয়
সংকেত সনাক্ত করে এবং ভবিষ্যতের চাহিদা পূর্বাভাস দেয় এমন পূর্বাভাস পদ্ধতিগুলি অন্বেষণ করুন।.
এআই আপস্কেলিং কীভাবে কাজ করে: মূল ধারণা, দৈনন্দিন ভাষায় 🧩
আপস্কেলিং মানে রেজোলিউশন বৃদ্ধি করা: আরও পিক্সেল, বড় ছবি। ঐতিহ্যবাহী আপস্কেলিং (বাইকিউবিকের মতো) মূলত পিক্সেল প্রসারিত করে এবং ট্রানজিশন মসৃণ করে ( বাইকিউবিক ইন্টারপোলেশন )। এটা ঠিক আছে, কিন্তু এটি নতুন বিবরণ আবিষ্কার করতে পারে না - এটি কেবল ইন্টারপোলেট করে।
এআই আপস্কেলিং আরও সাহসী কিছুর চেষ্টা করে (গবেষণা জগতে "সুপার-রেজোলিউশন" নামেও পরিচিত) ( ডিপ লার্নিং ফর ইমেজ সুপার-রেজোলিউশন: একটি জরিপ ):
-
এটি কম-রেজোলিউশন ইনপুট দেখে
-
প্যাটার্ন চিনতে পারে (প্রান্ত, টেক্সচার, মুখের বৈশিষ্ট্য, টেক্সট স্ট্রোক, ফ্যাব্রিক বুনন...)
-
একটি উচ্চ-রেজোলিউশন সংস্করণ কেমন হওয়া উচিত
-
অতিরিক্ত পিক্সেল ডেটা তৈরি করে যা সেই প্যাটার্নগুলির সাথে মানানসই
"বাস্তবতাকে নিখুঁতভাবে পুনরুদ্ধার করা" নয়, বরং "অত্যন্ত বিশ্বাসযোগ্য অনুমান করা" ( ইমেজ সুপার-রেজোলিউশন ইউজিং ডিপ কনভলিউশনাল নেটওয়ার্কস (SRCNN) ) এর মতো। যদি এটি কিছুটা সন্দেহজনক মনে হয়, তবে আপনি ভুল নন - তবে এটি এত ভাল কাজ করার কারণও 😄
আর হ্যাঁ, এর মানে হলো AI আপস্কেলিং মূলত নিয়ন্ত্রিত হ্যালুসিনেশন... কিন্তু উৎপাদনশীল, পিক্সেল-সম্মানজনক উপায়ে।.
AI আপস্কেলিংয়ের একটি ভালো সংস্করণ কী? ✅🛠️
যদি আপনি একটি AI আপস্কেলার (অথবা একটি সেটিং প্রিসেট) বিচার করেন, তাহলে এখানে সবচেয়ে গুরুত্বপূর্ণ বিষয়গুলি হল:
-
অতিরিক্ত রান্না না করেই বিস্তারিত পুনরুদ্ধার।
ভালোভাবে স্কেলিং করলে মুচমুচে ভাব এবং গঠন বৃদ্ধি পায়, মুচমুচে শব্দ বা নকল ছিদ্র নয়। -
প্রান্ত শৃঙ্খলা
পরিষ্কার রেখাগুলি পরিষ্কার থাকে। খারাপ মডেলগুলি প্রান্তগুলিকে টলতে বা অঙ্কুরিত করে তোলে। -
টেক্সচার রিয়েলিজম
চুল যেন পেইন্টব্রাশের মতো না হয়। ইট যেন বারবার আঁকা প্যাটার্নের স্ট্যাম্প না হয়। -
শব্দ এবং কম্প্রেশন হ্যান্ডলিং
প্রতিদিনের অনেক ছবি JPEG-তে রূপান্তরিত হয়। একটি ভালো আপস্কেলার সেই ক্ষতিকে আরও বাড়িয়ে তোলে না ( Real-ESRGAN )। -
মুখ এবং টেক্সট সচেতনতা
মুখ এবং টেক্সট হল ভুল সনাক্ত করার সবচেয়ে সহজ জায়গা। ভালো মডেলগুলি তাদের সাথে মৃদু আচরণ করে (অথবা বিশেষায়িত মোড থাকে)। -
ফ্রেম জুড়ে ধারাবাহিকতা (ভিডিওর জন্য)
যদি বিশদটি ফ্রেম থেকে ফ্রেমে ঝিকিমিকি করে, তাহলে আপনার চোখ চিৎকার করে উঠবে। ভিডিও আপস্কেলিং টেম্পোরাল স্থিতিশীলতার দ্বারা বেঁচে থাকে বা মারা যায় ( BasicVSR (CVPR 2021) )। -
নিয়ন্ত্রণ যা অর্থবহ।
আপনি এমন স্লাইডার চান যা বাস্তব ফলাফলের সাথে মানানসই: শব্দ নিরোধক, ডিব্লার, আর্টিফ্যাক্ট অপসারণ, শস্য ধরে রাখা, ধারালো করা... ব্যবহারিক জিনিস।
একটি নীরব নিয়ম যা টিকে থাকে: "সেরা" আপস্কেলিং হল প্রায়শই যা আপনি খুব কমই লক্ষ্য করেন। দেখে মনে হচ্ছে শুরুতে আপনার কাছে আরও ভালো ক্যামেরা ছিল 📷✨
তুলনা সারণী: জনপ্রিয় AI আপস্কেলিং বিকল্পগুলি (এবং সেগুলি কীসের জন্য ভালো) 📊🙂
নিচে একটি ব্যবহারিক তুলনা দেওয়া হল। দাম ইচ্ছাকৃতভাবে অস্পষ্ট কারণ সরঞ্জামগুলি লাইসেন্স, বান্ডিল, গণনা খরচ এবং অন্যান্য মজাদার জিনিসের উপর নির্ভর করে পরিবর্তিত হয়।.
| হাতিয়ার / পদ্ধতি | এর জন্য সেরা | দামের ধরণ | কেন এটি কাজ করে (প্রায়) |
|---|---|---|---|
| পোখরাজ-ধাঁচের ডেস্কটপ আপস্কেলার ( পোখরাজ ছবি , পোখরাজ ভিডিও ) | ছবি, ভিডিও, সহজ কর্মপ্রবাহ | পেইড-ইশ | শক্তিশালী সাধারণ মডেল + প্রচুর টিউনিং, "শুধু কাজ করে"... বেশিরভাগ ক্ষেত্রেই |
| অ্যাডোবি "সুপার রেজোলিউশন" ধরণের বৈশিষ্ট্য ( অ্যাডোবি এনহ্যান্স > সুপার রেজোলিউশন ) | আলোকচিত্রীরা ইতিমধ্যেই সেই বাস্তুতন্ত্রে আছেন | সাবস্ক্রিপশন-y | দৃঢ় বিস্তারিত পুনর্গঠন, সাধারণত রক্ষণশীল (কম নাটকীয়) |
| রিয়েল-এসআরজিএএন / এসআরজিএএন ভেরিয়েন্ট ( রিয়েল-এসআরজিএএন , এসআরজিএএন ) | DIY, ডেভেলপার, ব্যাচ জব | বিনামূল্যে (কিন্তু সময়সাপেক্ষ) | টেক্সচারের খুঁটিনাটি দিক থেকে দুর্দান্ত, সতর্ক না হলে মুখে মশলাদার দাগ পড়তে পারে। |
| ডিফিউশন-ভিত্তিক আপস্কেলিং মোড ( SR3 ) | সৃজনশীল কাজ, স্টাইলাইজড ফলাফল | মিশ্র | অসাধারণ কিছু জিনিস তৈরি করতে পারে - আবার অর্থহীন জিনিসও আবিষ্কার করতে পারে, তাই... হ্যাঁ |
| গেম আপস্কেলার (DLSS/FSR-স্টাইল) ( NVIDIA DLSS , AMD FSR 2 ) | রিয়েল-টাইম গেমিং এবং রেন্ডারিং | বান্ডিলযুক্ত | গতির ডেটা এবং শেখা পূর্ব অভিজ্ঞতা ব্যবহার করে - মসৃণ পারফরম্যান্স জয় 🕹️ |
| ক্লাউড আপস্কেলিং পরিষেবা | সুবিধা, দ্রুত জয় | প্রতি-ব্যবহারের জন্য অর্থ প্রদান | দ্রুত + স্কেলেবল, কিন্তু আপনি নিয়ন্ত্রণ এবং কখনও কখনও সূক্ষ্মতা বিনিময় করেন |
| ভিডিও-কেন্দ্রিক AI আপস্কেলার ( BasicVSR , Topaz Video ) | পুরাতন ফুটেজ, অ্যানিমে, আর্কাইভ | পেইড-ইশ | ঝিকিমিকি কমাতে টেম্পোরাল কৌশল + বিশেষায়িত ভিডিও মডেল |
| "স্মার্ট" ফোন/গ্যালারির স্কেলিং বৃদ্ধি | নৈমিত্তিক ব্যবহার | অন্তর্ভুক্ত | হালকা ওজনের মডেলগুলি নিখুঁততার জন্য নয়, আনন্দদায়ক আউটপুটের জন্য তৈরি (এখনও ব্যবহারযোগ্য) |
ফরম্যাটিং অদ্ভুত স্বীকারোক্তি: "পেইড-ইশ" সেই টেবিলে অনেক কাজ করছে। কিন্তু আপনি ধারণাটি বুঝতে পারছেন 😅
বড় রহস্য: মডেলরা নিম্ন-রেজোলিউশন থেকে উচ্চ-রেজোলিউশন পর্যন্ত ম্যাপিং শেখে 🧠➡️🖼️
বেশিরভাগ AI আপস্কেলিং এর কেন্দ্রবিন্দুতে রয়েছে একটি তত্ত্বাবধানে শেখার সেটআপ ( Image Super-Resolution Using Deep Convolutional Networks (SRCNN) ):
-
উচ্চ-রেজোলিউশনের ছবি দিয়ে শুরু করুন ("সত্য")
-
কম-রেজোলিউশনের সংস্করণগুলিতে ("ইনপুট") তাদের ডাউনসাম্পল করুন।
-
নিম্ন-রেজোলিউশন থেকে মূল উচ্চ-রেজোলিউশন পুনর্গঠনের জন্য একটি মডেলকে প্রশিক্ষণ দিন
সময়ের সাথে সাথে, মডেলটি পারস্পরিক সম্পর্ক শিখে যেমন:
-
"চোখের চারপাশে এই ধরণের ঝাপসা ভাব সাধারণত চোখের পাপড়ির ক্ষেত্রেই দেখা যায়"
-
"এই পিক্সেল ক্লাস্টারটি প্রায়শই সেরিফ টেক্সট নির্দেশ করে"
-
"এই প্রান্তের গ্রেডিয়েন্টটি দেখতে ছাদের রেখার মতো, এলোমেলো শব্দের মতো নয়"
এটা নির্দিষ্ট ছবি মুখস্থ করা নয় (সহজ অর্থে), এটা পরিসংখ্যানগত কাঠামো শেখা ( ছবির জন্য গভীর শিক্ষা সুপার-রেজোলিউশন: একটি জরিপ )। এটাকে টেক্সচার এবং প্রান্তের ব্যাকরণ শেখার মতো ভাবুন। কবিতার ব্যাকরণ নয়, বরং... IKEA ম্যানুয়াল ব্যাকরণ 🪑📦 (অদ্ভুত রূপক, তবুও যথেষ্ট কাছাকাছি)।
গুরুত্বপূর্ণ বিষয়: অনুমানের সময় কী ঘটে (যখন আপনি উচ্চতর স্তরে পৌঁছান) ⚙️✨
যখন আপনি একটি AI আপস্কেলারে একটি ছবি ফিড করেন, তখন সাধারণত এইরকম একটি পাইপলাইন থাকে:
-
প্রাক-প্রক্রিয়াকরণ
-
রঙের স্থান রূপান্তর করুন (কখনও কখনও)
-
পিক্সেল মান স্বাভাবিক করুন
-
ছবি বড় হলে টুকরো টুকরো করে টাইল করুন (VRAM রিয়েলিটি চেক 😭) ( রিয়েল-ESRGAN রেপো (টাইল বিকল্প) )
-
-
বৈশিষ্ট্য নিষ্কাশন
-
প্রাথমিক স্তরগুলি প্রান্ত, কোণ, গ্রেডিয়েন্ট সনাক্ত করে
-
গভীর স্তরগুলি নিদর্শন সনাক্ত করে: টেক্সচার, আকার, মুখের উপাদান
-
-
পুনর্গঠন
-
মডেলটি একটি উচ্চ-রেজোলিউশনের বৈশিষ্ট্য মানচিত্র তৈরি করে
-
তারপর এটিকে প্রকৃত পিক্সেল আউটপুটে রূপান্তর করে
-
-
প্রক্রিয়াকরণ পরবর্তী
-
ঐচ্ছিক ধারালোকরণ
-
ঐচ্ছিক শব্দ নিরোধক
-
ঐচ্ছিক আর্টিফ্যাক্ট দমন (রিংিং, হ্যালো, ব্লকনেস)
-
একটি সূক্ষ্ম বিবরণ: অনেক সরঞ্জাম টাইলস তৈরিতে উন্নতমানের, তারপর সেলাই মিশ্রিত করে। দুর্দান্ত সরঞ্জামগুলি টাইলের সীমানা লুকিয়ে রাখে। মেহ সরঞ্জামগুলি যদি আপনি চোখ বুলিয়ে নেন তবে হালকা গ্রিড চিহ্ন রেখে যায়। এবং হ্যাঁ, আপনি চোখ বুলিয়ে নেবেন, কারণ মানুষ ছোট গ্রেমলিনের মতো 300% জুমে ক্ষুদ্র ত্রুটিগুলি পরীক্ষা করতে পছন্দ করে 🧌
AI আপস্কেলিং এর জন্য ব্যবহৃত প্রধান মডেল পরিবারগুলি (এবং কেন তারা আলাদা বোধ করে) 🤖📚
১) সিএনএন-ভিত্তিক সুপার-রেজোলিউশন (ক্লাসিক ওয়ার্কহর্স)
কনভলিউশনাল নিউরাল নেটওয়ার্কগুলি স্থানীয় প্যাটার্নগুলিতে দুর্দান্ত: প্রান্ত, টেক্সচার, ছোট কাঠামো ( ইমেজ সুপার-রেজোলিউশন ইউজিং ডিপ কনভলিউশনাল নেটওয়ার্কস (SRCNN) )।
-
সুবিধা: দ্রুত, স্থিতিশীল, কম চমক
-
অসুবিধা: জোরে চাপ দিলে কিছুটা "প্রক্রিয়াজাত" দেখাতে পারে
২) GAN-ভিত্তিক আপস্কেলিং (ESRGAN-শৈলী) 🎭
GAN (জেনারেটিভ অ্যাডভারসারিয়াল নেটওয়ার্ক) একটি জেনারেটরকে উচ্চ-রেজোলিউশনের ছবি তৈরি করার প্রশিক্ষণ দেয় যা একজন বৈষম্যকারী আসল ছবি থেকে আলাদা করতে পারে না ( জেনারেটিভ অ্যাডভারসারিয়াল নেটওয়ার্ক )।
-
সুবিধা: তীক্ষ্ণ বিবরণ, চিত্তাকর্ষক টেক্সচার
-
অসুবিধা: এমন কিছু আবিষ্কার করতে পারে যা সেখানে ছিল না - কখনও ভুল, কখনও অদ্ভুত ( SRGAN , ESRGAN )
একটি GAN আপনাকে সেই তীব্রতা দিতে পারে যা আপনাকে হাঁফিয়ে উঠতে সাহায্য করবে। এটি আপনার প্রতিকৃতির বিষয়বস্তুকে অতিরিক্ত ভ্রুও দিতে পারে। তাই... আপনার যুদ্ধগুলি বেছে নিন 😬
৩) ডিফিউশন-ভিত্তিক আপস্কেলিং (সৃজনশীল ওয়াইল্ডকার্ড) 🌫️➡️🖼️
ডিফিউশন মডেলগুলি ধাপে ধাপে শব্দ কমায় এবং উচ্চ-রেজোলিউশনের বিশদ ( SR3 ) তৈরি করতে নির্দেশিত হতে পারে।
-
সুবিধা: সম্ভাব্য বিশদে অত্যন্ত ভালো হতে পারে, বিশেষ করে সৃজনশীল কাজের জন্য।
-
অসুবিধা: সেটিংস আক্রমণাত্মক হলে মূল পরিচয়/কাঠামো থেকে দূরে সরে যেতে পারে ( SR3 )
এখানেই "উন্নত" "পুনর্কল্পনা"-এর সাথে মিশে যায়। কখনও কখনও আপনি ঠিক এটাই চান, কখনও কখনও তা হয় না।.
৪) টেম্পোরাল ধারাবাহিকতা সহ ভিডিও আপস্কেলিং 🎞️
ভিডিও আপস্কেলিং প্রায়শই গতি-সচেতন যুক্তি যোগ করে:
-
বিস্তারিত স্থিতিশীল করতে পার্শ্ববর্তী ফ্রেম ব্যবহার করে ( BasicVSR (CVPR 2021) )
-
ঝিকিমিকি এবং হামাগুড়ি দেওয়া শিল্পকর্ম এড়াতে চেষ্টা করে
-
প্রায়শই সুপার-রেজোলিউশন ডিনয়েজ এবং ডিইন্টারলেসিংয়ের সাথে একত্রিত হয় ( টোপাজ ভিডিও )
যদি ছবির স্কেলিং একটি ছবি পুনরুদ্ধার করার মতো হয়, তাহলে ভিডিও স্কেলিং একটি ফ্লিপবুক পুনরুদ্ধার করার মতো, চরিত্রটির নাকের আকৃতি প্রতি পৃষ্ঠায় পরিবর্তন না করে। যা... যতটা শোনাচ্ছে তার চেয়েও কঠিন।.
কেন AI আপস্কেলিং কখনও কখনও ভুয়া দেখায় (এবং এটি কীভাবে চিহ্নিত করবেন) 👀🚩
এআই আপস্কেলিং কোনওভাবেই ব্যর্থ হয় না। একবার আপনি প্যাটার্নগুলি শিখে ফেললে, আপনি সেগুলি সর্বত্র দেখতে পাবেন, যেমন একটি নতুন গাড়ি কেনা এবং হঠাৎ প্রতিটি রাস্তায় সেই মডেলটি লক্ষ্য করা 😵💫
সাধারণ বলে:
-
মোমের ত্বক (অত্যধিক শব্দ নিরোধক + মসৃণকরণ)
-
প্রান্তের চারপাশে অতিরিক্ত তীক্ষ্ণ হ্যালো বাইকিউবিক ইন্টারপোলেশন )
-
বারবার টেক্সচার (ইটের দেয়াল কপি-পেস্ট প্যাটার্নে পরিণত হয়)
-
"অ্যালগরিদম" বলে চিৎকার করে উঠছে মুচমুচে মাইক্রো-কনট্রাস্ট
-
টেক্সট ম্যাংলিং যেখানে অক্ষরগুলি প্রায় অক্ষর হয়ে যায় (সবচেয়ে খারাপ ধরণের)
-
ডিটেইল ড্রিফট যেখানে ছোট বৈশিষ্ট্যগুলি সূক্ষ্মভাবে পরিবর্তিত হয়, বিশেষ করে ডিফিউশন ওয়ার্কফ্লোতে ( SR3 )
জটিল অংশ: কখনও কখনও এই শিল্পকর্মগুলি এক নজরে "ভালো" দেখায়। আপনার মস্তিষ্ক তীক্ষ্ণতা পছন্দ করে। কিন্তু কিছুক্ষণ পরে, এটি ... অচল মনে হয়।.
একটি ভালো কৌশল হল জুম আউট করা এবং স্বাভাবিক দেখার দূরত্বে এটি স্বাভাবিক দেখাচ্ছে কিনা তা পরীক্ষা করা। যদি এটি কেবল 400% জুমে ভাল দেখায়, তবে এটি কোনও জয় নয়, এটি একটি শখ 😅
এআই আপস্কেলিং কীভাবে কাজ করে: প্রশিক্ষণের দিক, গণিতের মাথাব্যথা ছাড়াই 📉🙂
সুপার-রেজোলিউশন মডেল প্রশিক্ষণে সাধারণত অন্তর্ভুক্ত থাকে:
-
জোড়াযুক্ত ডেটাসেট (কম-রেজোলিউশন ইনপুট, উচ্চ-রেজোলিউশন টার্গেট) ( ডিপ কনভলিউশনাল নেটওয়ার্ক ব্যবহার করে চিত্র সুপার-রেজোলিউশন (SRCNN) )
-
ভুল পুনর্গঠনের শাস্তি দেয় এমন ক্ষতির ফাংশন SRGAN )
সাধারণ ক্ষতির ধরণ:
-
পিক্সেল লস (L1/L2)
নির্ভুলতা বৃদ্ধি করে। সামান্য নরম ফলাফল দিতে পারে। -
অনুভূতিগত ক্ষতি
Perceptual Losses (Johnson et al., 2016) গভীর বৈশিষ্ট্যগুলির (যেমন "এটি কি দেখাচ্ছে ") । -
অ্যাডভারসারিয়াল লস (GAN)
বাস্তববাদকে উৎসাহিত করে, কখনও কখনও আক্ষরিক নির্ভুলতার মূল্যে ( SRGAN , জেনারেটিভ অ্যাডভারসারিয়াল নেটওয়ার্ক )।
একটানা টানাপোড়েন চলছে:
-
মূল বনাম এর
প্রতি বিশ্বস্ত থাকুন -
এটিকে দৃশ্যত আনন্দদায়ক
সেই স্পেকট্রামে বিভিন্ন জায়গায় বিভিন্ন সরঞ্জাম কাজ করে। আর আপনি পারিবারিক ছবি পুনরুদ্ধার করছেন নাকি এমন পোস্টার তৈরি করছেন যেখানে ফরেনসিক নির্ভুলতার চেয়ে "সুদর্শন" বেশি গুরুত্বপূর্ণ, তার উপর নির্ভর করে আপনি একটি পছন্দ করতে পারেন।.
ব্যবহারিক কর্মপ্রবাহ: ছবি, পুরনো স্ক্যান, অ্যানিমে এবং ভিডিও 📸🧾🎥
ছবি (প্রতিকৃতি, ল্যান্ডস্কেপ, পণ্যের ছবি)
সাধারণত সর্বোত্তম অনুশীলন হল:
-
প্রথমে হালকা শব্দ কমিয়ে দিন (প্রয়োজনে)
-
রক্ষণশীল পরিবেশ সহ উচ্চমানের
-
যদি জিনিসগুলি খুব মসৃণ মনে হয় (হ্যাঁ, সত্যিই) তাহলে আবার দানা যোগ করুন।
শস্যদানা লবণের মতো। অতিরিক্ত খাবার খাওয়া নষ্ট করে, কিন্তু কোনটাই স্বাদে একটুও মসৃণ হতে পারে না 🍟
পুরনো স্ক্যান এবং ভারীভাবে সংকুচিত ছবি
এগুলো আরও কঠিন কারণ মডেলটি কম্প্রেশন ব্লকগুলিকে "টেক্সচার" হিসেবে বিবেচনা করতে পারে।
চেষ্টা করুন:
-
শিল্পকর্ম অপসারণ বা অবরোধ মুক্ত করা
-
তারপর উন্নতমানের
-
তারপর হালকা ধারালো করা (খুব বেশি না... আমি জানি, সবাই তাই বলে, তবুও)
অ্যানিমে এবং লাইন আর্ট
লাইন আর্ট এর সুবিধাগুলি হল:
-
পরিষ্কার প্রান্ত সংরক্ষণ করে এমন মডেল
-
হ্রাসকৃত টেক্সচার হ্যালুসিনেশন
অ্যানিমে আপস্কেলিং প্রায়শই দুর্দান্ত দেখায় কারণ আকারগুলি সহজ এবং সামঞ্জস্যপূর্ণ। (ভাগ্যবান।)
ভিডিও
ভিডিওতে অতিরিক্ত ধাপ যোগ করা হয়েছে:
-
শব্দমুক্ত করা
-
ডিইন্টারলেস (নির্দিষ্ট উৎসের জন্য)
-
উচ্চমানের
-
টেম্পোরাল স্মুথিং বা স্থিতিশীলকরণ ( BasicVSR (CVPR 2021) )
-
সংহতির জন্য ঐচ্ছিক শস্য পুনঃপ্রবর্তন
যদি তুমি টেম্পোরাল কনসিস্টেন্সি এড়িয়ে যাও, তাহলে তুমি সেই ঝিকিমিকি বিশদ ঝিকিমিকি করে তুলবে। একবার তুমি এটা লক্ষ্য করলে, তুমি এটাকে আর দেখতে পাবে না। শান্ত ঘরে একটা চেঁচামেচি করা চেয়ারের মতো 😖
অনুমান না করেই সেটিংস বেছে নেওয়া (একটি ছোট চিট শিট) 🎛️😵💫
এখানে একটি ভালো শুরুর মানসিকতা দেওয়া হল:
-
যদি মুখগুলো প্লাস্টিকের মতো দেখায়, তাহলে
শব্দ কমানো, ধারালো করা কমানো, মুখ-সংরক্ষণকারী মডেল বা মোড ব্যবহার করে দেখুন। -
যদি টেক্সচার খুব তীব্র দেখায় তাহলে
"বিস্তারিত বর্ধন" বা "বিস্তারিত পুনরুদ্ধার করুন" স্লাইডারগুলি নীচে রাখুন, পরে সূক্ষ্ম দানা যুক্ত করুন। -
যদি প্রান্তগুলি জ্বলজ্বল করে।
শার্পনিং কম করুন, হ্যালো সাপ্রেশন বিকল্পগুলি পরীক্ষা করুন। -
যদি ছবিটি খুব বেশি "এআই" দেখায়,
তাহলে আরও রক্ষণশীল হোন। কখনও কখনও সেরা পদক্ষেপ হল কেবল... কম।
আর: শুধু পারো বলেই ৮x কে আপস্কেল করো না। একটা পরিষ্কার ২x অথবা ৪x প্রায়শই ভালো জায়গা। এর পরে, তুমি মডেলটিকে তোমার পিক্সেল সম্পর্কে ফ্যানফিকশন লিখতে বলছো 📖😂
নীতিশাস্ত্র, সত্যতা, এবং "সত্য" সম্পর্কে বিশ্রী প্রশ্ন 🧭😬
এআই আপস্কেলিং একটি রেখা ঝাপসা করে দেয়:
-
পুনরুদ্ধার বলতে বোঝায় যা ছিল তা পুনরুদ্ধার করা।
-
বর্ধন বলতে বোঝায় যা ছিল না তা যোগ করা
ব্যক্তিগত ছবির ক্ষেত্রে, এটি সাধারণত ঠিক (এবং সুন্দর) থাকে। সাংবাদিকতা, আইনি প্রমাণ, মেডিকেল ইমেজিং, অথবা বিশ্বস্ততা গুরুত্বপূর্ণ এমন যেকোনো কিছুর ক্ষেত্রে... আপনাকে সতর্ক থাকতে হবে ( OSAC/NIST: স্ট্যান্ডার্ড গাইড ফর ফরেনসিক ডিজিটাল ইমেজ ম্যানেজমেন্ট , SWGDE গাইডলাইন ফর ফরেনসিক ইমেজ অ্যানালাইসিস )।
একটি সহজ নিয়ম:
-
যদি ঝুঁকি বেশি থাকে, তাহলে AI আপস্কেলিংকে দৃষ্টান্তমূলক , চূড়ান্ত নয়।
এছাড়াও, পেশাদার প্রেক্ষাপটে প্রকাশ গুরুত্বপূর্ণ। এআই খারাপ বলে নয়, বরং দর্শকদের জানা উচিত যে বিবরণ পুনর্গঠিত করা হয়েছে নাকি ধারণ করা হয়েছে। এটা কেবল... শ্রদ্ধাশীল।.
সমাপনী নোট এবং একটি দ্রুত সারসংক্ষেপ 🧡✅
তাহলে, AI আপস্কেলিং কীভাবে কাজ করে তা হল: মডেলরা শিখে কিভাবে উচ্চ-রেজোলিউশনের বিশদ কম-রেজোলিউশনের প্যাটার্নের সাথে সম্পর্কিত হয়, তারপর আপস্কেলিংয়ের সময় বিশ্বাসযোগ্য অতিরিক্ত পিক্সেলের পূর্বাভাস দেয় ( ডিপ লার্নিং ফর ইমেজ সুপার-রেজোলিউশন: একটি জরিপ )। মডেল পরিবারের উপর নির্ভর করে (CNN, GAN, ডিফিউশন, ভিডিও-টেম্পোরাল), সেই ভবিষ্যদ্বাণী রক্ষণশীল এবং বিশ্বস্ত হতে পারে... অথবা সাহসী এবং কখনও কখনও অপ্রচলিত 😅
দ্রুত সংক্ষিপ্তসার
-
ঐতিহ্যবাহী আপস্কেলিং পিক্সেল প্রসারিত করে ( বাইকিউবিক ইন্টারপোলেশন )
-
AI আপস্কেলিং শেখা প্যাটার্ন ব্যবহার করে অনুপস্থিত বিবরণের পূর্বাভাস দেয় ( ইমেজ সুপার-রেজোলিউশন ইউজিং ডিপ কনভোলিউশনাল নেটওয়ার্কস (SRCNN) )
-
সঠিক মডেল + সংযম থেকে দুর্দান্ত ফলাফল আসে
-
ভিডিওতে হ্যালো, মোমের মতো মুখ, বারবার টেক্সচার এবং ঝিকিমিকি করার দিকে নজর রাখুন ( BasicVSR (CVPR 2021) )
-
স্কেলিং প্রায়শই "প্রশংসনীয় পুনর্গঠন", নিখুঁত সত্য নয় ( SRGAN , ESRGAN )
যদি তুমি চাও, তাহলে আমাকে বলো তুমি কী আপস্কেলিং করছো (মুখ, পুরনো ছবি, ভিডিও, অ্যানিমে, টেক্সট স্ক্যান), এবং আমি এমন একটি সেটিংস কৌশলের পরামর্শ দেব যা সাধারণ "এআই লুক" সমস্যাগুলি এড়াতে পারে 🎯🙂
প্রায়শই জিজ্ঞাসিত প্রশ্নাবলী
এআই আপস্কেলিং এবং এটি কীভাবে কাজ করে
এআই আপস্কেলিং (যাকে প্রায়শই "সুপার-রেজোলিউশন" বলা হয়) প্রশিক্ষণের সময় শেখা প্যাটার্ন থেকে অনুপস্থিত উচ্চ-রেজোলিউশনের বিশদ পূর্বাভাস দিয়ে একটি ছবির রেজোলিউশন বৃদ্ধি করে। বাইকুবিক ইন্টারপোলেশনের মতো কেবল পিক্সেল প্রসারিত করার পরিবর্তে, একটি মডেল প্রান্ত, টেক্সচার, মুখ এবং টেক্সট-সদৃশ স্ট্রোক অধ্যয়ন করে, তারপর নতুন পিক্সেল ডেটা তৈরি করে যা সেই শেখা প্যাটার্নগুলির সাথে সামঞ্জস্যপূর্ণ। এটি "বাস্তবতা পুনরুদ্ধার" কম এবং "একটি বিশ্বাসযোগ্য অনুমান করা" বেশি যা প্রাকৃতিক বলে মনে হয়।.
এআই আপস্কেলিং বনাম বাইকুবিক বা ঐতিহ্যবাহী আকার পরিবর্তন
ঐতিহ্যবাহী আপস্কেলিং পদ্ধতি (যেমন বাইকুবিক) মূলত বিদ্যমান পিক্সেলের মধ্যে ইন্টারপোলেট করে, নতুন বিবরণ তৈরি না করেই ট্রানজিশনগুলিকে মসৃণ করে। এআই আপস্কেলিং এর লক্ষ্য হল ভিজ্যুয়াল সংকেতগুলি সনাক্ত করে এবং সেই সংকেতগুলির উচ্চ-রেজোলিউশন সংস্করণগুলি কেমন দেখাবে তা ভবিষ্যদ্বাণী করে সম্ভাব্য কাঠামো পুনর্গঠন করা। এই কারণেই এআই ফলাফলগুলি নাটকীয়ভাবে তীক্ষ্ণ বোধ করতে পারে, এবং কেন তারা এমন শিল্পকর্মগুলি প্রবর্তন করতে পারে বা "উদ্ভাবন" করতে পারে যা উৎসে উপস্থিত ছিল না।.
মুখ কেন মোমের মতো বা অতিরিক্ত মসৃণ দেখাতে পারে
মোমের মতো মুখগুলি সাধারণত আক্রমণাত্মক শব্দমুক্তকরণ এবং মসৃণকরণের মাধ্যমে তৈরি হয় এবং এর সাথে যুক্ত করা হয় ধারালোকরণ যা ত্বকের প্রাকৃতিক গঠনকে নষ্ট করে দেয়। অনেক সরঞ্জাম শব্দ এবং সূক্ষ্ম গঠনকে একইভাবে ব্যবহার করে, তাই একটি ছবি "পরিষ্কার" করলে ছিদ্র এবং সূক্ষ্ম বিবরণ মুছে ফেলা যায়। একটি সাধারণ পদ্ধতি হল শব্দমুক্তকরণ এবং ধারালোকরণ কমানো, যদি পাওয়া যায় তবে মুখ-সংরক্ষণ মোড ব্যবহার করা, তারপর শস্যের স্পর্শ পুনরায় চালু করা যাতে ফলাফলটি কম প্লাস্টিক এবং আরও ফটোগ্রাফিক মনে হয়।.
সাধারণ AI আপস্কেলিং শিল্পকর্মগুলি দেখার জন্য
সাধারণ টেলের মধ্যে রয়েছে প্রান্তের চারপাশে হ্যালো, বারবার টেক্সচার প্যাটার্ন (যেমন কপি-পেস্ট ইট), মুচমুচে মাইক্রো-কনট্রাস্ট এবং "প্রায় অক্ষরে" রূপান্তরিত টেক্সট। ডিফিউশন-ভিত্তিক ওয়ার্কফ্লোতে, আপনি ডিটেইল ড্রিফ্টও দেখতে পাবেন যেখানে ছোট বৈশিষ্ট্যগুলি সূক্ষ্মভাবে পরিবর্তিত হয়। ভিডিওর জন্য, ফ্রেম জুড়ে ঝাঁকুনি এবং ক্রলিং ডিটেইল বড় লক্ষণ। যদি এটি শুধুমাত্র চরম জুমে ভালো দেখায়, তবে সেটিংস সম্ভবত খুব আক্রমণাত্মক।.
GAN, CNN, এবং ডিফিউশন আপস্কেলারগুলির ফলাফল কীভাবে ভিন্ন হয়
সিএনএন-ভিত্তিক সুপার-রেজোলিউশন স্থির এবং আরও অনুমানযোগ্য হতে থাকে, তবে জোরে চাপ দিলে এটি "প্রক্রিয়াজাত" দেখাতে পারে। GAN-ভিত্তিক বিকল্পগুলি (ESRGAN-শৈলী) প্রায়শই পাঞ্চার টেক্সচার এবং অনুভূত তীক্ষ্ণতা তৈরি করে, তবে তারা ভুল বিবরণকে বিভ্রান্ত করতে পারে, বিশেষ করে মুখের উপর। ডিফিউশন-ভিত্তিক আপস্কেলিং সুন্দর, বিশ্বাসযোগ্য বিবরণ তৈরি করতে পারে, তবুও নির্দেশিকা বা শক্তি সেটিংস খুব শক্তিশালী হলে এটি মূল কাঠামো থেকে সরে যেতে পারে।.
"অতিরিক্ত কৃত্রিম বুদ্ধিমত্তা" চেহারা এড়াতে একটি ব্যবহারিক সেটিংস কৌশল
রক্ষণশীল শুরু করুন: চরম কারণগুলিতে পৌঁছানোর আগে 2× বা 4× উচ্চমানের। যদি মুখগুলি প্লাস্টিকের মতো দেখায়, তাহলে ডায়াল ব্যাক ডিনয়েজ এবং শার্পনিং করুন এবং ফেস-অ্যাওয়ার মোড চেষ্টা করুন। যদি টেক্সচার খুব তীব্র হয়ে ওঠে, তাহলে বিস্তারিত বর্ধন কমিয়ে দিন এবং পরে সূক্ষ্ম দানা যোগ করার কথা বিবেচনা করুন। যদি প্রান্তগুলি উজ্জ্বল হয়, তাহলে শার্পনিং কমিয়ে দিন এবং হ্যালো বা আর্টিফ্যাক্ট দমন পরীক্ষা করুন। অনেক পাইপলাইনে, "কম" জয়ী হয় কারণ এটি বিশ্বাসযোগ্য বাস্তবতা সংরক্ষণ করে।.
স্কেলিং বৃদ্ধির আগে পুরনো স্ক্যান বা ভারী JPEG-সংকুচিত ছবি পরিচালনা করা
সংকুচিত ছবিগুলি জটিল কারণ মডেলগুলি ব্লক আর্টিফ্যাক্টগুলিকে আসল টেক্সচার হিসাবে বিবেচনা করতে পারে এবং সেগুলিকে প্রশস্ত করতে পারে। একটি সাধারণ কর্মপ্রবাহ হল প্রথমে আর্টিফ্যাক্ট অপসারণ বা ডিব্লকিং, তারপর আপস্কেলিং, তারপর প্রয়োজনে হালকা ধারালো করা। স্ক্যানের জন্য, মৃদু পরিষ্কার-পরিচ্ছন্নতা মডেলটিকে ক্ষতির পরিবর্তে প্রকৃত কাঠামোর উপর ফোকাস করতে সহায়তা করতে পারে। লক্ষ্য হল "নকল টেক্সচার সংকেত" হ্রাস করা যাতে আপস্কেলারকে শব্দযুক্ত ইনপুট থেকে আত্মবিশ্বাসী অনুমান করতে বাধ্য না করা হয়।.
কেন ভিডিও আপস্কেলিং ছবির আপস্কেলিং থেকে কঠিন
ভিডিও আপস্কেলিং কেবল একটি স্থির ছবিতেই ভালো নয়, বরং ফ্রেম জুড়ে সামঞ্জস্যপূর্ণ হতে হবে। যদি বিবরণ ফ্রেম থেকে ফ্রেমে ঝাঁকুনি দেয়, তাহলে ফলাফল দ্রুত বিভ্রান্তিকর হয়ে ওঠে। ভিডিও-কেন্দ্রিক পদ্ধতিগুলি পুনর্গঠন স্থিতিশীল করতে এবং ঝিকিমিকি শিল্পকর্ম এড়াতে পার্শ্ববর্তী ফ্রেম থেকে টেম্পোরাল তথ্য ব্যবহার করে। অনেক কর্মপ্রবাহের মধ্যে রয়েছে ডিনয়েজ, নির্দিষ্ট উৎসের জন্য ডিইনটারলেসিং এবং ঐচ্ছিক গ্রেন রিইন্ট্রোডাকশন যাতে পুরো ক্রমটি কৃত্রিমভাবে তীক্ষ্ণ না হয়ে একত্রিত বোধ করে।.
যখন AI আপস্কেলিং উপযুক্ত নয় বা নির্ভর করা ঝুঁকিপূর্ণ
AI আপস্কেলিংকে প্রমাণ হিসেবে নয়, বরং বর্ধিতকরণ হিসেবে বিবেচনা করাই ভালো। সাংবাদিকতা, আইনি প্রমাণ, মেডিকেল ইমেজিং বা ফরেনসিক কাজের মতো উচ্চ-স্তরের প্রেক্ষাপটে, "বিশ্বাসযোগ্য" পিক্সেল তৈরি করা বিভ্রান্তিকর হতে পারে কারণ এটি এমন বিবরণ যোগ করতে পারে যা ক্যাপচার করা হয়নি। একটি নিরাপদ ফ্রেমিং হল এটিকে চিত্রিতভাবে ব্যবহার করা এবং প্রকাশ করা যে একটি AI প্রক্রিয়া পুনর্গঠিত বিবরণ। যদি বিশ্বস্ততা গুরুত্বপূর্ণ হয়, তাহলে মূলগুলি সংরক্ষণ করুন এবং প্রতিটি প্রক্রিয়াকরণ পদক্ষেপ এবং সেটিং নথিভুক্ত করুন।.
তথ্যসূত্র
-
arXiv - ছবির জন্য গভীর শিক্ষা সুপার-রেজোলিউশন: একটি জরিপ - arxiv.org
-
arXiv - ডিপ কনভোলিউশনাল নেটওয়ার্ক (SRCNN) ব্যবহার করে ইমেজ সুপার-রেজোলিউশন - arxiv.org
-
arXiv - রিয়েল-ESRGAN - arxiv.org
-
arXiv - ESRGAN - arxiv.org
-
arXiv - SR3 - arxiv.org
-
NVIDIA ডেভেলপার - NVIDIA DLSS - developer.nvidia.com
-
AMD GPUOpen - FidelityFX সুপার রেজোলিউশন 2 - gpuopen.com
-
কম্পিউটার ভিশন ফাউন্ডেশন (সিভিএফ) ওপেন অ্যাক্সেস - বেসিকভিএসআর: ভিডিও সুপার-রেজোলিউশনে প্রয়োজনীয় উপাদানগুলির অনুসন্ধান (সিভিপিআর ২০২১) - openaccess.thecvf.com
-
arXiv - জেনারেটিভ অ্যাডভারসারিয়াল নেটওয়ার্ক - arxiv.org
-
arXiv - SRGAN - arxiv.org
-
arXiv - অনুভূতিগত ক্ষতি (জনসন এবং অন্যান্য, ২০১৬) - arxiv.org
-
GitHub - রিয়েল-ESRGAN রেপো (টাইল বিকল্প) - github.com
-
উইকিপিডিয়া - বাইকুবিক ইন্টারপোলেশন - wikipedia.org
-
টোপাজ ল্যাবস - টোপাজ ছবি - topazlabs.com
-
টোপাজ ল্যাবস - টোপাজ ভিডিও - topazlabs.com
-
অ্যাডোবি সহায়তা কেন্দ্র - অ্যাডোবি এনহ্যান্স > সুপার রেজোলিউশন - helpx.adobe.com
-
NIST / OSAC - ফরেনসিক ডিজিটাল ইমেজ ম্যানেজমেন্টের জন্য স্ট্যান্ডার্ড গাইড (সংস্করণ 1.0) - nist.gov
-
SWGDE - ফরেনসিক চিত্র বিশ্লেষণের জন্য নির্দেশিকা - swgde.org