এআই আপস্কেলিং কীভাবে কাজ করে

এআই আপস্কেলিং কীভাবে কাজ করে?

সংক্ষিপ্ত উত্তর: AI আপস্কেলিং একটি মডেলকে কম এবং উচ্চ-রেজোলিউশনের ছবি জোড়ায় প্রশিক্ষণ দিয়ে কাজ করে, তারপর আপস্কেলিং চলাকালীন বিশ্বাসযোগ্য অতিরিক্ত পিক্সেল পূর্বাভাস দেওয়ার জন্য এটি ব্যবহার করে। যদি মডেলটি প্রশিক্ষণের সময় একই রকম টেক্সচার বা মুখ দেখে থাকে, তবে এটি বিশ্বাসযোগ্য বিশদ যোগ করতে পারে; যদি না দেখে থাকে, তবে এটি হ্যালো, মোমের ত্বক বা ভিডিওতে ঝিকিমিকির মতো শিল্পকর্মগুলিকে "হ্যালুসিনেট" করতে পারে।

মূল বিষয়গুলি:

ভবিষ্যদ্বাণী : মডেলটি বাস্তবতার নিশ্চিত পুনর্গঠন নয়, বরং সম্ভাব্য বিশদ তৈরি করে।

মডেল পছন্দ : সিএনএনগুলি সাধারণত আরও স্থিতিশীল হয়; জিএএনগুলি আরও তীক্ষ্ণ দেখাতে পারে তবে বৈশিষ্ট্যগুলি আবিষ্কার করার ঝুঁকি নিতে পারে।

শিল্পকর্ম পরীক্ষা : বলয়, পুনরাবৃত্ত টেক্সচার, "প্রায় অক্ষর" এবং প্লাস্টিকের মতো মুখের দিকে নজর রাখুন।

ভিডিও স্থিতিশীলতা : টেম্পোরাল পদ্ধতি ব্যবহার করুন, নাহলে ফ্রেম-টু-ফ্রেম ঝিলমিল এবং ড্রিফট দেখতে পাবেন।

উচ্চ-বাঁধামূলক ব্যবহার : যদি নির্ভুলতা গুরুত্বপূর্ণ হয়, তাহলে প্রক্রিয়াকরণ প্রকাশ করুন এবং ফলাফলগুলিকে দৃষ্টান্তমূলক হিসাবে বিবেচনা করুন।

এআই আপস্কেলিং কীভাবে কাজ করে? ইনফোগ্রাফিক।.

তুমি হয়তো এটা দেখেছো: একটা ছোট, মুচমুচে ছবি এতটাই খাস্তা হয়ে যায় যে প্রিন্ট, স্ট্রিম বা উপস্থাপনায় ফেলে দেওয়া যায় যে কোনওরকম ঝাঁকুনি ছাড়াই। এটা প্রতারণার মতো মনে হয়। আর - সবচেয়ে ভালোভাবে - এটা একরকম 😅

তাহলে, AI Upscaling কীভাবে কাজ করে তা "কম্পিউটার বিস্তারিত তথ্য বৃদ্ধি করে" (হাত-তরঙ্গায়িত) এর চেয়ে আরও নির্দিষ্ট কিছুতে নেমে আসে এবং "একটি মডেল অনেক উদাহরণ থেকে শেখা প্যাটার্নের উপর ভিত্তি করে সম্ভাব্য উচ্চ-রেজোলিউশন কাঠামোর ভবিষ্যদ্বাণী করে" ( Deep Learning for Image Super-Resolution: A Survey ) এর কাছাকাছি। ভবিষ্যদ্বাণীর সেই ধাপটিই পুরো খেলা - এবং এই কারণেই AI Upscaling অত্যাশ্চর্য দেখাতে পারে... অথবা একটু প্লাস্টিকের... অথবা আপনার বিড়ালের বোনাস গোঁফের মতো।

এর পরে আপনি যে প্রবন্ধগুলি পড়তে পছন্দ করতে পারেন:

🔗 এআই কীভাবে কাজ করে
AI-তে মডেল, ডেটা এবং অনুমানের মূল বিষয়গুলি শিখুন।.

🔗 AI কীভাবে শেখে
দেখুন কিভাবে প্রশিক্ষণের তথ্য এবং প্রতিক্রিয়া সময়ের সাথে সাথে মডেলের কর্মক্ষমতা উন্নত করে।.

🔗 AI কীভাবে অসঙ্গতি সনাক্ত করে
প্যাটার্নের বেসলাইনগুলি বুঝুন এবং কীভাবে AI দ্রুত অস্বাভাবিক আচরণকে চিহ্নিত করে।.

🔗 AI কীভাবে প্রবণতার পূর্বাভাস দেয়
সংকেত সনাক্ত করে এবং ভবিষ্যতের চাহিদা পূর্বাভাস দেয় এমন পূর্বাভাস পদ্ধতিগুলি অন্বেষণ করুন।.


এআই আপস্কেলিং কীভাবে কাজ করে: মূল ধারণা, দৈনন্দিন ভাষায় 🧩

আপস্কেলিং মানে রেজোলিউশন বৃদ্ধি করা: আরও পিক্সেল, বড় ছবি। ঐতিহ্যবাহী আপস্কেলিং (বাইকিউবিকের মতো) মূলত পিক্সেল প্রসারিত করে এবং ট্রানজিশন মসৃণ করে ( বাইকিউবিক ইন্টারপোলেশন )। এটা ঠিক আছে, কিন্তু এটি নতুন বিবরণ আবিষ্কার করতে পারে না - এটি কেবল ইন্টারপোলেট করে।

এআই আপস্কেলিং আরও সাহসী কিছুর চেষ্টা করে (গবেষণা জগতে "সুপার-রেজোলিউশন" নামেও পরিচিত) ( ডিপ লার্নিং ফর ইমেজ সুপার-রেজোলিউশন: একটি জরিপ ):

  • এটি কম-রেজোলিউশন ইনপুট দেখে

  • প্যাটার্ন চিনতে পারে (প্রান্ত, টেক্সচার, মুখের বৈশিষ্ট্য, টেক্সট স্ট্রোক, ফ্যাব্রিক বুনন...)

  • একটি উচ্চ-রেজোলিউশন সংস্করণ কেমন হওয়া উচিত

  • অতিরিক্ত পিক্সেল ডেটা তৈরি করে যা সেই প্যাটার্নগুলির সাথে মানানসই

"বাস্তবতাকে নিখুঁতভাবে পুনরুদ্ধার করা" নয়, বরং "অত্যন্ত বিশ্বাসযোগ্য অনুমান করা" ( ইমেজ সুপার-রেজোলিউশন ইউজিং ডিপ কনভলিউশনাল নেটওয়ার্কস (SRCNN) ) এর মতো। যদি এটি কিছুটা সন্দেহজনক মনে হয়, তবে আপনি ভুল নন - তবে এটি এত ভাল কাজ করার কারণও 😄

আর হ্যাঁ, এর মানে হলো AI আপস্কেলিং মূলত নিয়ন্ত্রিত হ্যালুসিনেশন... কিন্তু উৎপাদনশীল, পিক্সেল-সম্মানজনক উপায়ে।.


AI আপস্কেলিংয়ের একটি ভালো সংস্করণ কী? ✅🛠️

যদি আপনি একটি AI আপস্কেলার (অথবা একটি সেটিং প্রিসেট) বিচার করেন, তাহলে এখানে সবচেয়ে গুরুত্বপূর্ণ বিষয়গুলি হল:

  • অতিরিক্ত রান্না না করেই বিস্তারিত পুনরুদ্ধার।
    ভালোভাবে স্কেলিং করলে মুচমুচে ভাব এবং গঠন বৃদ্ধি পায়, মুচমুচে শব্দ বা নকল ছিদ্র নয়।

  • প্রান্ত শৃঙ্খলা
    পরিষ্কার রেখাগুলি পরিষ্কার থাকে। খারাপ মডেলগুলি প্রান্তগুলিকে টলতে বা অঙ্কুরিত করে তোলে।

  • টেক্সচার রিয়েলিজম
    চুল যেন পেইন্টব্রাশের মতো না হয়। ইট যেন বারবার আঁকা প্যাটার্নের স্ট্যাম্প না হয়।

  • শব্দ এবং কম্প্রেশন হ্যান্ডলিং
    প্রতিদিনের অনেক ছবি JPEG-তে রূপান্তরিত হয়। একটি ভালো আপস্কেলার সেই ক্ষতিকে আরও বাড়িয়ে তোলে না ( Real-ESRGAN )।

  • মুখ এবং টেক্সট সচেতনতা
    মুখ এবং টেক্সট হল ভুল সনাক্ত করার সবচেয়ে সহজ জায়গা। ভালো মডেলগুলি তাদের সাথে মৃদু আচরণ করে (অথবা বিশেষায়িত মোড থাকে)।

  • ফ্রেম জুড়ে ধারাবাহিকতা (ভিডিওর জন্য)
    যদি বিশদটি ফ্রেম থেকে ফ্রেমে ঝিকিমিকি করে, তাহলে আপনার চোখ চিৎকার করে উঠবে। ভিডিও আপস্কেলিং টেম্পোরাল স্থিতিশীলতার দ্বারা বেঁচে থাকে বা মারা যায় ( BasicVSR (CVPR 2021) )।

  • নিয়ন্ত্রণ যা অর্থবহ।
    আপনি এমন স্লাইডার চান যা বাস্তব ফলাফলের সাথে মানানসই: শব্দ নিরোধক, ডিব্লার, আর্টিফ্যাক্ট অপসারণ, শস্য ধরে রাখা, ধারালো করা... ব্যবহারিক জিনিস।

একটি নীরব নিয়ম যা টিকে থাকে: "সেরা" আপস্কেলিং হল প্রায়শই যা আপনি খুব কমই লক্ষ্য করেন। দেখে মনে হচ্ছে শুরুতে আপনার কাছে আরও ভালো ক্যামেরা ছিল 📷✨


তুলনা সারণী: জনপ্রিয় AI আপস্কেলিং বিকল্পগুলি (এবং সেগুলি কীসের জন্য ভালো) 📊🙂

নিচে একটি ব্যবহারিক তুলনা দেওয়া হল। দাম ইচ্ছাকৃতভাবে অস্পষ্ট কারণ সরঞ্জামগুলি লাইসেন্স, বান্ডিল, গণনা খরচ এবং অন্যান্য মজাদার জিনিসের উপর নির্ভর করে পরিবর্তিত হয়।.

হাতিয়ার / পদ্ধতি এর জন্য সেরা দামের ধরণ কেন এটি কাজ করে (প্রায়)
পোখরাজ-ধাঁচের ডেস্কটপ আপস্কেলার ( পোখরাজ ছবি , পোখরাজ ভিডিও ) ছবি, ভিডিও, সহজ কর্মপ্রবাহ পেইড-ইশ শক্তিশালী সাধারণ মডেল + প্রচুর টিউনিং, "শুধু কাজ করে"... বেশিরভাগ ক্ষেত্রেই
অ্যাডোবি "সুপার রেজোলিউশন" ধরণের বৈশিষ্ট্য ( অ্যাডোবি এনহ্যান্স > সুপার রেজোলিউশন ) আলোকচিত্রীরা ইতিমধ্যেই সেই বাস্তুতন্ত্রে আছেন সাবস্ক্রিপশন-y দৃঢ় বিস্তারিত পুনর্গঠন, সাধারণত রক্ষণশীল (কম নাটকীয়)
রিয়েল-এসআরজিএএন / এসআরজিএএন ভেরিয়েন্ট ( রিয়েল-এসআরজিএএন , এসআরজিএএন ) DIY, ডেভেলপার, ব্যাচ জব বিনামূল্যে (কিন্তু সময়সাপেক্ষ) টেক্সচারের খুঁটিনাটি দিক থেকে দুর্দান্ত, সতর্ক না হলে মুখে মশলাদার দাগ পড়তে পারে।
ডিফিউশন-ভিত্তিক আপস্কেলিং মোড ( SR3 ) সৃজনশীল কাজ, স্টাইলাইজড ফলাফল মিশ্র অসাধারণ কিছু জিনিস তৈরি করতে পারে - আবার অর্থহীন জিনিসও আবিষ্কার করতে পারে, তাই... হ্যাঁ
গেম আপস্কেলার (DLSS/FSR-স্টাইল) ( NVIDIA DLSS , AMD FSR 2 ) রিয়েল-টাইম গেমিং এবং রেন্ডারিং বান্ডিলযুক্ত গতির ডেটা এবং শেখা পূর্ব অভিজ্ঞতা ব্যবহার করে - মসৃণ পারফরম্যান্স জয় 🕹️
ক্লাউড আপস্কেলিং পরিষেবা সুবিধা, দ্রুত জয় প্রতি-ব্যবহারের জন্য অর্থ প্রদান দ্রুত + স্কেলেবল, কিন্তু আপনি নিয়ন্ত্রণ এবং কখনও কখনও সূক্ষ্মতা বিনিময় করেন
ভিডিও-কেন্দ্রিক AI আপস্কেলার ( BasicVSR , Topaz Video ) পুরাতন ফুটেজ, অ্যানিমে, আর্কাইভ পেইড-ইশ ঝিকিমিকি কমাতে টেম্পোরাল কৌশল + বিশেষায়িত ভিডিও মডেল
"স্মার্ট" ফোন/গ্যালারির স্কেলিং বৃদ্ধি নৈমিত্তিক ব্যবহার অন্তর্ভুক্ত হালকা ওজনের মডেলগুলি নিখুঁততার জন্য নয়, আনন্দদায়ক আউটপুটের জন্য তৈরি (এখনও ব্যবহারযোগ্য)

ফরম্যাটিং অদ্ভুত স্বীকারোক্তি: "পেইড-ইশ" সেই টেবিলে অনেক কাজ করছে। কিন্তু আপনি ধারণাটি বুঝতে পারছেন 😅


বড় রহস্য: মডেলরা নিম্ন-রেজোলিউশন থেকে উচ্চ-রেজোলিউশন পর্যন্ত ম্যাপিং শেখে 🧠➡️🖼️

বেশিরভাগ AI আপস্কেলিং এর কেন্দ্রবিন্দুতে রয়েছে একটি তত্ত্বাবধানে শেখার সেটআপ ( Image Super-Resolution Using Deep Convolutional Networks (SRCNN) ):

  1. উচ্চ-রেজোলিউশনের ছবি দিয়ে শুরু করুন ("সত্য")

  2. কম-রেজোলিউশনের সংস্করণগুলিতে ("ইনপুট") তাদের ডাউনসাম্পল করুন।

  3. নিম্ন-রেজোলিউশন থেকে মূল উচ্চ-রেজোলিউশন পুনর্গঠনের জন্য একটি মডেলকে প্রশিক্ষণ দিন

সময়ের সাথে সাথে, মডেলটি পারস্পরিক সম্পর্ক শিখে যেমন:

  • "চোখের চারপাশে এই ধরণের ঝাপসা ভাব সাধারণত চোখের পাপড়ির ক্ষেত্রেই দেখা যায়"

  • "এই পিক্সেল ক্লাস্টারটি প্রায়শই সেরিফ টেক্সট নির্দেশ করে"

  • "এই প্রান্তের গ্রেডিয়েন্টটি দেখতে ছাদের রেখার মতো, এলোমেলো শব্দের মতো নয়"

এটা নির্দিষ্ট ছবি মুখস্থ করা নয় (সহজ অর্থে), এটা পরিসংখ্যানগত কাঠামো শেখা ( ছবির জন্য গভীর শিক্ষা সুপার-রেজোলিউশন: একটি জরিপ )। এটাকে টেক্সচার এবং প্রান্তের ব্যাকরণ শেখার মতো ভাবুন। কবিতার ব্যাকরণ নয়, বরং... IKEA ম্যানুয়াল ব্যাকরণ 🪑📦 (অদ্ভুত রূপক, তবুও যথেষ্ট কাছাকাছি)।


গুরুত্বপূর্ণ বিষয়: অনুমানের সময় কী ঘটে (যখন আপনি উচ্চতর স্তরে পৌঁছান) ⚙️✨

যখন আপনি একটি AI আপস্কেলারে একটি ছবি ফিড করেন, তখন সাধারণত এইরকম একটি পাইপলাইন থাকে:

  • প্রাক-প্রক্রিয়াকরণ

    • রঙের স্থান রূপান্তর করুন (কখনও কখনও)

    • পিক্সেল মান স্বাভাবিক করুন

    • ছবি বড় হলে টুকরো টুকরো করে টাইল করুন (VRAM রিয়েলিটি চেক 😭) ( রিয়েল-ESRGAN রেপো (টাইল বিকল্প) )

  • বৈশিষ্ট্য নিষ্কাশন

    • প্রাথমিক স্তরগুলি প্রান্ত, কোণ, গ্রেডিয়েন্ট সনাক্ত করে

    • গভীর স্তরগুলি নিদর্শন সনাক্ত করে: টেক্সচার, আকার, মুখের উপাদান

  • পুনর্গঠন

    • মডেলটি একটি উচ্চ-রেজোলিউশনের বৈশিষ্ট্য মানচিত্র তৈরি করে

    • তারপর এটিকে প্রকৃত পিক্সেল আউটপুটে রূপান্তর করে

  • প্রক্রিয়াকরণ পরবর্তী

    • ঐচ্ছিক ধারালোকরণ

    • ঐচ্ছিক শব্দ নিরোধক

    • ঐচ্ছিক আর্টিফ্যাক্ট দমন (রিংিং, হ্যালো, ব্লকনেস)

একটি সূক্ষ্ম বিবরণ: অনেক সরঞ্জাম টাইলস তৈরিতে উন্নতমানের, তারপর সেলাই মিশ্রিত করে। দুর্দান্ত সরঞ্জামগুলি টাইলের সীমানা লুকিয়ে রাখে। মেহ সরঞ্জামগুলি যদি আপনি চোখ বুলিয়ে নেন তবে হালকা গ্রিড চিহ্ন রেখে যায়। এবং হ্যাঁ, আপনি চোখ বুলিয়ে নেবেন, কারণ মানুষ ছোট গ্রেমলিনের মতো 300% জুমে ক্ষুদ্র ত্রুটিগুলি পরীক্ষা করতে পছন্দ করে 🧌


AI আপস্কেলিং এর জন্য ব্যবহৃত প্রধান মডেল পরিবারগুলি (এবং কেন তারা আলাদা বোধ করে) 🤖📚

১) সিএনএন-ভিত্তিক সুপার-রেজোলিউশন (ক্লাসিক ওয়ার্কহর্স)

কনভলিউশনাল নিউরাল নেটওয়ার্কগুলি স্থানীয় প্যাটার্নগুলিতে দুর্দান্ত: প্রান্ত, টেক্সচার, ছোট কাঠামো ( ইমেজ সুপার-রেজোলিউশন ইউজিং ডিপ কনভলিউশনাল নেটওয়ার্কস (SRCNN) )।

  • সুবিধা: দ্রুত, স্থিতিশীল, কম চমক

  • অসুবিধা: জোরে চাপ দিলে কিছুটা "প্রক্রিয়াজাত" দেখাতে পারে

২) GAN-ভিত্তিক আপস্কেলিং (ESRGAN-শৈলী) 🎭

GAN (জেনারেটিভ অ্যাডভারসারিয়াল নেটওয়ার্ক) একটি জেনারেটরকে উচ্চ-রেজোলিউশনের ছবি তৈরি করার প্রশিক্ষণ দেয় যা একজন বৈষম্যকারী আসল ছবি থেকে আলাদা করতে পারে না ( জেনারেটিভ অ্যাডভারসারিয়াল নেটওয়ার্ক )।

  • সুবিধা: তীক্ষ্ণ বিবরণ, চিত্তাকর্ষক টেক্সচার

  • অসুবিধা: এমন কিছু আবিষ্কার করতে পারে যা সেখানে ছিল না - কখনও ভুল, কখনও অদ্ভুত ( SRGAN , ESRGAN )

একটি GAN আপনাকে সেই তীব্রতা দিতে পারে যা আপনাকে হাঁফিয়ে উঠতে সাহায্য করবে। এটি আপনার প্রতিকৃতির বিষয়বস্তুকে অতিরিক্ত ভ্রুও দিতে পারে। তাই... আপনার যুদ্ধগুলি বেছে নিন 😬

৩) ডিফিউশন-ভিত্তিক আপস্কেলিং (সৃজনশীল ওয়াইল্ডকার্ড) 🌫️➡️🖼️

ডিফিউশন মডেলগুলি ধাপে ধাপে শব্দ কমায় এবং উচ্চ-রেজোলিউশনের বিশদ ( SR3 ) তৈরি করতে নির্দেশিত হতে পারে।

  • সুবিধা: সম্ভাব্য বিশদে অত্যন্ত ভালো হতে পারে, বিশেষ করে সৃজনশীল কাজের জন্য।

  • অসুবিধা: সেটিংস আক্রমণাত্মক হলে মূল পরিচয়/কাঠামো থেকে দূরে সরে যেতে পারে ( SR3 )

এখানেই "উন্নত" "পুনর্কল্পনা"-এর সাথে মিশে যায়। কখনও কখনও আপনি ঠিক এটাই চান, কখনও কখনও তা হয় না।.

৪) টেম্পোরাল ধারাবাহিকতা সহ ভিডিও আপস্কেলিং 🎞️

ভিডিও আপস্কেলিং প্রায়শই গতি-সচেতন যুক্তি যোগ করে:

  • বিস্তারিত স্থিতিশীল করতে পার্শ্ববর্তী ফ্রেম ব্যবহার করে ( BasicVSR (CVPR 2021) )

  • ঝিকিমিকি এবং হামাগুড়ি দেওয়া শিল্পকর্ম এড়াতে চেষ্টা করে

  • প্রায়শই সুপার-রেজোলিউশন ডিনয়েজ এবং ডিইন্টারলেসিংয়ের সাথে একত্রিত হয় ( টোপাজ ভিডিও )

যদি ছবির স্কেলিং একটি ছবি পুনরুদ্ধার করার মতো হয়, তাহলে ভিডিও স্কেলিং একটি ফ্লিপবুক পুনরুদ্ধার করার মতো, চরিত্রটির নাকের আকৃতি প্রতি পৃষ্ঠায় পরিবর্তন না করে। যা... যতটা শোনাচ্ছে তার চেয়েও কঠিন।.


কেন AI আপস্কেলিং কখনও কখনও ভুয়া দেখায় (এবং এটি কীভাবে চিহ্নিত করবেন) 👀🚩

এআই আপস্কেলিং কোনওভাবেই ব্যর্থ হয় না। একবার আপনি প্যাটার্নগুলি শিখে ফেললে, আপনি সেগুলি সর্বত্র দেখতে পাবেন, যেমন একটি নতুন গাড়ি কেনা এবং হঠাৎ প্রতিটি রাস্তায় সেই মডেলটি লক্ষ্য করা 😵💫

সাধারণ বলে:

  • মোমের ত্বক (অত্যধিক শব্দ নিরোধক + মসৃণকরণ)

  • প্রান্তের চারপাশে অতিরিক্ত তীক্ষ্ণ হ্যালো বাইকিউবিক ইন্টারপোলেশন )

  • বারবার টেক্সচার (ইটের দেয়াল কপি-পেস্ট প্যাটার্নে পরিণত হয়)

  • "অ্যালগরিদম" বলে চিৎকার করে উঠছে মুচমুচে মাইক্রো-কনট্রাস্ট

  • টেক্সট ম্যাংলিং যেখানে অক্ষরগুলি প্রায় অক্ষর হয়ে যায় (সবচেয়ে খারাপ ধরণের)

  • ডিটেইল ড্রিফট যেখানে ছোট বৈশিষ্ট্যগুলি সূক্ষ্মভাবে পরিবর্তিত হয়, বিশেষ করে ডিফিউশন ওয়ার্কফ্লোতে ( SR3 )

জটিল অংশ: কখনও কখনও এই শিল্পকর্মগুলি এক নজরে "ভালো" দেখায়। আপনার মস্তিষ্ক তীক্ষ্ণতা পছন্দ করে। কিন্তু কিছুক্ষণ পরে, এটি ... অচল মনে হয়।.

একটি ভালো কৌশল হল জুম আউট করা এবং স্বাভাবিক দেখার দূরত্বে এটি স্বাভাবিক দেখাচ্ছে কিনা তা পরীক্ষা করা। যদি এটি কেবল 400% জুমে ভাল দেখায়, তবে এটি কোনও জয় নয়, এটি একটি শখ 😅


এআই আপস্কেলিং কীভাবে কাজ করে: প্রশিক্ষণের দিক, গণিতের মাথাব্যথা ছাড়াই 📉🙂

সুপার-রেজোলিউশন মডেল প্রশিক্ষণে সাধারণত অন্তর্ভুক্ত থাকে:

সাধারণ ক্ষতির ধরণ:

একটানা টানাপোড়েন চলছে:

  • মূল বনাম এর
    প্রতি বিশ্বস্ত থাকুন

  • এটিকে দৃশ্যত আনন্দদায়ক

সেই স্পেকট্রামে বিভিন্ন জায়গায় বিভিন্ন সরঞ্জাম কাজ করে। আর আপনি পারিবারিক ছবি পুনরুদ্ধার করছেন নাকি এমন পোস্টার তৈরি করছেন যেখানে ফরেনসিক নির্ভুলতার চেয়ে "সুদর্শন" বেশি গুরুত্বপূর্ণ, তার উপর নির্ভর করে আপনি একটি পছন্দ করতে পারেন।.


ব্যবহারিক কর্মপ্রবাহ: ছবি, পুরনো স্ক্যান, অ্যানিমে এবং ভিডিও 📸🧾🎥

ছবি (প্রতিকৃতি, ল্যান্ডস্কেপ, পণ্যের ছবি)

সাধারণত সর্বোত্তম অনুশীলন হল:

  • প্রথমে হালকা শব্দ কমিয়ে দিন (প্রয়োজনে)

  • রক্ষণশীল পরিবেশ সহ উচ্চমানের

  • যদি জিনিসগুলি খুব মসৃণ মনে হয় (হ্যাঁ, সত্যিই) তাহলে আবার দানা যোগ করুন।

শস্যদানা লবণের মতো। অতিরিক্ত খাবার খাওয়া নষ্ট করে, কিন্তু কোনটাই স্বাদে একটুও মসৃণ হতে পারে না 🍟

পুরনো স্ক্যান এবং ভারীভাবে সংকুচিত ছবি

এগুলো আরও কঠিন কারণ মডেলটি কম্প্রেশন ব্লকগুলিকে "টেক্সচার" হিসেবে বিবেচনা করতে পারে।
চেষ্টা করুন:

  • শিল্পকর্ম অপসারণ বা অবরোধ মুক্ত করা

  • তারপর উন্নতমানের

  • তারপর হালকা ধারালো করা (খুব বেশি না... আমি জানি, সবাই তাই বলে, তবুও)

অ্যানিমে এবং লাইন আর্ট

লাইন আর্ট এর সুবিধাগুলি হল:

  • পরিষ্কার প্রান্ত সংরক্ষণ করে এমন মডেল

  • হ্রাসকৃত টেক্সচার হ্যালুসিনেশন
    অ্যানিমে আপস্কেলিং প্রায়শই দুর্দান্ত দেখায় কারণ আকারগুলি সহজ এবং সামঞ্জস্যপূর্ণ। (ভাগ্যবান।)

ভিডিও

ভিডিওতে অতিরিক্ত ধাপ যোগ করা হয়েছে:

  • শব্দমুক্ত করা

  • ডিইন্টারলেস (নির্দিষ্ট উৎসের জন্য)

  • উচ্চমানের

  • টেম্পোরাল স্মুথিং বা স্থিতিশীলকরণ ( BasicVSR (CVPR 2021) )

  • সংহতির জন্য ঐচ্ছিক শস্য পুনঃপ্রবর্তন

যদি তুমি টেম্পোরাল কনসিস্টেন্সি এড়িয়ে যাও, তাহলে তুমি সেই ঝিকিমিকি বিশদ ঝিকিমিকি করে তুলবে। একবার তুমি এটা লক্ষ্য করলে, তুমি এটাকে আর দেখতে পাবে না। শান্ত ঘরে একটা চেঁচামেচি করা চেয়ারের মতো 😖


অনুমান না করেই সেটিংস বেছে নেওয়া (একটি ছোট চিট শিট) 🎛️😵💫

এখানে একটি ভালো শুরুর মানসিকতা দেওয়া হল:

  • যদি মুখগুলো প্লাস্টিকের মতো দেখায়, তাহলে
    শব্দ কমানো, ধারালো করা কমানো, মুখ-সংরক্ষণকারী মডেল বা মোড ব্যবহার করে দেখুন।

  • যদি টেক্সচার খুব তীব্র দেখায় তাহলে
    "বিস্তারিত বর্ধন" বা "বিস্তারিত পুনরুদ্ধার করুন" স্লাইডারগুলি নীচে রাখুন, পরে সূক্ষ্ম দানা যুক্ত করুন।

  • যদি প্রান্তগুলি জ্বলজ্বল করে।
    শার্পনিং কম করুন, হ্যালো সাপ্রেশন বিকল্পগুলি পরীক্ষা করুন।

  • যদি ছবিটি খুব বেশি "এআই" দেখায়,
    তাহলে আরও রক্ষণশীল হোন। কখনও কখনও সেরা পদক্ষেপ হল কেবল... কম।

আর: শুধু পারো বলেই ৮x কে আপস্কেল করো না। একটা পরিষ্কার ২x অথবা ৪x প্রায়শই ভালো জায়গা। এর পরে, তুমি মডেলটিকে তোমার পিক্সেল সম্পর্কে ফ্যানফিকশন লিখতে বলছো 📖😂


নীতিশাস্ত্র, সত্যতা, এবং "সত্য" সম্পর্কে বিশ্রী প্রশ্ন 🧭😬

এআই আপস্কেলিং একটি রেখা ঝাপসা করে দেয়:

  • পুনরুদ্ধার বলতে বোঝায় যা ছিল তা পুনরুদ্ধার করা।

  • বর্ধন বলতে বোঝায় যা ছিল না তা যোগ করা

ব্যক্তিগত ছবির ক্ষেত্রে, এটি সাধারণত ঠিক (এবং সুন্দর) থাকে। সাংবাদিকতা, আইনি প্রমাণ, মেডিকেল ইমেজিং, অথবা বিশ্বস্ততা গুরুত্বপূর্ণ এমন যেকোনো কিছুর ক্ষেত্রে... আপনাকে সতর্ক থাকতে হবে ( OSAC/NIST: স্ট্যান্ডার্ড গাইড ফর ফরেনসিক ডিজিটাল ইমেজ ম্যানেজমেন্ট , SWGDE গাইডলাইন ফর ফরেনসিক ইমেজ অ্যানালাইসিস )।

একটি সহজ নিয়ম:

  • যদি ঝুঁকি বেশি থাকে, তাহলে AI আপস্কেলিংকে দৃষ্টান্তমূলক , চূড়ান্ত নয়।

এছাড়াও, পেশাদার প্রেক্ষাপটে প্রকাশ গুরুত্বপূর্ণ। এআই খারাপ বলে নয়, বরং দর্শকদের জানা উচিত যে বিবরণ পুনর্গঠিত করা হয়েছে নাকি ধারণ করা হয়েছে। এটা কেবল... শ্রদ্ধাশীল।.


সমাপনী নোট এবং একটি দ্রুত সারসংক্ষেপ 🧡✅

তাহলে, AI আপস্কেলিং কীভাবে কাজ করে তা হল: মডেলরা শিখে কিভাবে উচ্চ-রেজোলিউশনের বিশদ কম-রেজোলিউশনের প্যাটার্নের সাথে সম্পর্কিত হয়, তারপর আপস্কেলিংয়ের সময় বিশ্বাসযোগ্য অতিরিক্ত পিক্সেলের পূর্বাভাস দেয় ( ডিপ লার্নিং ফর ইমেজ সুপার-রেজোলিউশন: একটি জরিপ )। মডেল পরিবারের উপর নির্ভর করে (CNN, GAN, ডিফিউশন, ভিডিও-টেম্পোরাল), সেই ভবিষ্যদ্বাণী রক্ষণশীল এবং বিশ্বস্ত হতে পারে... অথবা সাহসী এবং কখনও কখনও অপ্রচলিত 😅

দ্রুত সংক্ষিপ্তসার

যদি তুমি চাও, তাহলে আমাকে বলো তুমি কী আপস্কেলিং করছো (মুখ, পুরনো ছবি, ভিডিও, অ্যানিমে, টেক্সট স্ক্যান), এবং আমি এমন একটি সেটিংস কৌশলের পরামর্শ দেব যা সাধারণ "এআই লুক" সমস্যাগুলি এড়াতে পারে 🎯🙂


প্রায়শই জিজ্ঞাসিত প্রশ্নাবলী

এআই আপস্কেলিং এবং এটি কীভাবে কাজ করে

এআই আপস্কেলিং (যাকে প্রায়শই "সুপার-রেজোলিউশন" বলা হয়) প্রশিক্ষণের সময় শেখা প্যাটার্ন থেকে অনুপস্থিত উচ্চ-রেজোলিউশনের বিশদ পূর্বাভাস দিয়ে একটি ছবির রেজোলিউশন বৃদ্ধি করে। বাইকুবিক ইন্টারপোলেশনের মতো কেবল পিক্সেল প্রসারিত করার পরিবর্তে, একটি মডেল প্রান্ত, টেক্সচার, মুখ এবং টেক্সট-সদৃশ স্ট্রোক অধ্যয়ন করে, তারপর নতুন পিক্সেল ডেটা তৈরি করে যা সেই শেখা প্যাটার্নগুলির সাথে সামঞ্জস্যপূর্ণ। এটি "বাস্তবতা পুনরুদ্ধার" কম এবং "একটি বিশ্বাসযোগ্য অনুমান করা" বেশি যা প্রাকৃতিক বলে মনে হয়।.

এআই আপস্কেলিং বনাম বাইকুবিক বা ঐতিহ্যবাহী আকার পরিবর্তন

ঐতিহ্যবাহী আপস্কেলিং পদ্ধতি (যেমন বাইকুবিক) মূলত বিদ্যমান পিক্সেলের মধ্যে ইন্টারপোলেট করে, নতুন বিবরণ তৈরি না করেই ট্রানজিশনগুলিকে মসৃণ করে। এআই আপস্কেলিং এর লক্ষ্য হল ভিজ্যুয়াল সংকেতগুলি সনাক্ত করে এবং সেই সংকেতগুলির উচ্চ-রেজোলিউশন সংস্করণগুলি কেমন দেখাবে তা ভবিষ্যদ্বাণী করে সম্ভাব্য কাঠামো পুনর্গঠন করা। এই কারণেই এআই ফলাফলগুলি নাটকীয়ভাবে তীক্ষ্ণ বোধ করতে পারে, এবং কেন তারা এমন শিল্পকর্মগুলি প্রবর্তন করতে পারে বা "উদ্ভাবন" করতে পারে যা উৎসে উপস্থিত ছিল না।.

মুখ কেন মোমের মতো বা অতিরিক্ত মসৃণ দেখাতে পারে

মোমের মতো মুখগুলি সাধারণত আক্রমণাত্মক শব্দমুক্তকরণ এবং মসৃণকরণের মাধ্যমে তৈরি হয় এবং এর সাথে যুক্ত করা হয় ধারালোকরণ যা ত্বকের প্রাকৃতিক গঠনকে নষ্ট করে দেয়। অনেক সরঞ্জাম শব্দ এবং সূক্ষ্ম গঠনকে একইভাবে ব্যবহার করে, তাই একটি ছবি "পরিষ্কার" করলে ছিদ্র এবং সূক্ষ্ম বিবরণ মুছে ফেলা যায়। একটি সাধারণ পদ্ধতি হল শব্দমুক্তকরণ এবং ধারালোকরণ কমানো, যদি পাওয়া যায় তবে মুখ-সংরক্ষণ মোড ব্যবহার করা, তারপর শস্যের স্পর্শ পুনরায় চালু করা যাতে ফলাফলটি কম প্লাস্টিক এবং আরও ফটোগ্রাফিক মনে হয়।.

সাধারণ AI আপস্কেলিং শিল্পকর্মগুলি দেখার জন্য

সাধারণ টেলের মধ্যে রয়েছে প্রান্তের চারপাশে হ্যালো, বারবার টেক্সচার প্যাটার্ন (যেমন কপি-পেস্ট ইট), মুচমুচে মাইক্রো-কনট্রাস্ট এবং "প্রায় অক্ষরে" রূপান্তরিত টেক্সট। ডিফিউশন-ভিত্তিক ওয়ার্কফ্লোতে, আপনি ডিটেইল ড্রিফ্টও দেখতে পাবেন যেখানে ছোট বৈশিষ্ট্যগুলি সূক্ষ্মভাবে পরিবর্তিত হয়। ভিডিওর জন্য, ফ্রেম জুড়ে ঝাঁকুনি এবং ক্রলিং ডিটেইল বড় লক্ষণ। যদি এটি শুধুমাত্র চরম জুমে ভালো দেখায়, তবে সেটিংস সম্ভবত খুব আক্রমণাত্মক।.

GAN, CNN, এবং ডিফিউশন আপস্কেলারগুলির ফলাফল কীভাবে ভিন্ন হয়

সিএনএন-ভিত্তিক সুপার-রেজোলিউশন স্থির এবং আরও অনুমানযোগ্য হতে থাকে, তবে জোরে চাপ দিলে এটি "প্রক্রিয়াজাত" দেখাতে পারে। GAN-ভিত্তিক বিকল্পগুলি (ESRGAN-শৈলী) প্রায়শই পাঞ্চার টেক্সচার এবং অনুভূত তীক্ষ্ণতা তৈরি করে, তবে তারা ভুল বিবরণকে বিভ্রান্ত করতে পারে, বিশেষ করে মুখের উপর। ডিফিউশন-ভিত্তিক আপস্কেলিং সুন্দর, বিশ্বাসযোগ্য বিবরণ তৈরি করতে পারে, তবুও নির্দেশিকা বা শক্তি সেটিংস খুব শক্তিশালী হলে এটি মূল কাঠামো থেকে সরে যেতে পারে।.

"অতিরিক্ত কৃত্রিম বুদ্ধিমত্তা" চেহারা এড়াতে একটি ব্যবহারিক সেটিংস কৌশল

রক্ষণশীল শুরু করুন: চরম কারণগুলিতে পৌঁছানোর আগে 2× বা 4× উচ্চমানের। যদি মুখগুলি প্লাস্টিকের মতো দেখায়, তাহলে ডায়াল ব্যাক ডিনয়েজ এবং শার্পনিং করুন এবং ফেস-অ্যাওয়ার মোড চেষ্টা করুন। যদি টেক্সচার খুব তীব্র হয়ে ওঠে, তাহলে বিস্তারিত বর্ধন কমিয়ে দিন এবং পরে সূক্ষ্ম দানা যোগ করার কথা বিবেচনা করুন। যদি প্রান্তগুলি উজ্জ্বল হয়, তাহলে শার্পনিং কমিয়ে দিন এবং হ্যালো বা আর্টিফ্যাক্ট দমন পরীক্ষা করুন। অনেক পাইপলাইনে, "কম" জয়ী হয় কারণ এটি বিশ্বাসযোগ্য বাস্তবতা সংরক্ষণ করে।.

স্কেলিং বৃদ্ধির আগে পুরনো স্ক্যান বা ভারী JPEG-সংকুচিত ছবি পরিচালনা করা

সংকুচিত ছবিগুলি জটিল কারণ মডেলগুলি ব্লক আর্টিফ্যাক্টগুলিকে আসল টেক্সচার হিসাবে বিবেচনা করতে পারে এবং সেগুলিকে প্রশস্ত করতে পারে। একটি সাধারণ কর্মপ্রবাহ হল প্রথমে আর্টিফ্যাক্ট অপসারণ বা ডিব্লকিং, তারপর আপস্কেলিং, তারপর প্রয়োজনে হালকা ধারালো করা। স্ক্যানের জন্য, মৃদু পরিষ্কার-পরিচ্ছন্নতা মডেলটিকে ক্ষতির পরিবর্তে প্রকৃত কাঠামোর উপর ফোকাস করতে সহায়তা করতে পারে। লক্ষ্য হল "নকল টেক্সচার সংকেত" হ্রাস করা যাতে আপস্কেলারকে শব্দযুক্ত ইনপুট থেকে আত্মবিশ্বাসী অনুমান করতে বাধ্য না করা হয়।.

কেন ভিডিও আপস্কেলিং ছবির আপস্কেলিং থেকে কঠিন

ভিডিও আপস্কেলিং কেবল একটি স্থির ছবিতেই ভালো নয়, বরং ফ্রেম জুড়ে সামঞ্জস্যপূর্ণ হতে হবে। যদি বিবরণ ফ্রেম থেকে ফ্রেমে ঝাঁকুনি দেয়, তাহলে ফলাফল দ্রুত বিভ্রান্তিকর হয়ে ওঠে। ভিডিও-কেন্দ্রিক পদ্ধতিগুলি পুনর্গঠন স্থিতিশীল করতে এবং ঝিকিমিকি শিল্পকর্ম এড়াতে পার্শ্ববর্তী ফ্রেম থেকে টেম্পোরাল তথ্য ব্যবহার করে। অনেক কর্মপ্রবাহের মধ্যে রয়েছে ডিনয়েজ, নির্দিষ্ট উৎসের জন্য ডিইনটারলেসিং এবং ঐচ্ছিক গ্রেন রিইন্ট্রোডাকশন যাতে পুরো ক্রমটি কৃত্রিমভাবে তীক্ষ্ণ না হয়ে একত্রিত বোধ করে।.

যখন AI আপস্কেলিং উপযুক্ত নয় বা নির্ভর করা ঝুঁকিপূর্ণ

AI আপস্কেলিংকে প্রমাণ হিসেবে নয়, বরং বর্ধিতকরণ হিসেবে বিবেচনা করাই ভালো। সাংবাদিকতা, আইনি প্রমাণ, মেডিকেল ইমেজিং বা ফরেনসিক কাজের মতো উচ্চ-স্তরের প্রেক্ষাপটে, "বিশ্বাসযোগ্য" পিক্সেল তৈরি করা বিভ্রান্তিকর হতে পারে কারণ এটি এমন বিবরণ যোগ করতে পারে যা ক্যাপচার করা হয়নি। একটি নিরাপদ ফ্রেমিং হল এটিকে চিত্রিতভাবে ব্যবহার করা এবং প্রকাশ করা যে একটি AI প্রক্রিয়া পুনর্গঠিত বিবরণ। যদি বিশ্বস্ততা গুরুত্বপূর্ণ হয়, তাহলে মূলগুলি সংরক্ষণ করুন এবং প্রতিটি প্রক্রিয়াকরণ পদক্ষেপ এবং সেটিং নথিভুক্ত করুন।.

তথ্যসূত্র

  1. arXiv - ছবির জন্য গভীর শিক্ষা সুপার-রেজোলিউশন: একটি জরিপ - arxiv.org

  2. arXiv - ডিপ কনভোলিউশনাল নেটওয়ার্ক (SRCNN) ব্যবহার করে ইমেজ সুপার-রেজোলিউশন - arxiv.org

  3. arXiv - রিয়েল-ESRGAN - arxiv.org

  4. arXiv - ESRGAN - arxiv.org

  5. arXiv - SR3 - arxiv.org

  6. NVIDIA ডেভেলপার - NVIDIA DLSS - developer.nvidia.com

  7. AMD GPUOpen - FidelityFX সুপার রেজোলিউশন 2 - gpuopen.com

  8. কম্পিউটার ভিশন ফাউন্ডেশন (সিভিএফ) ওপেন অ্যাক্সেস - বেসিকভিএসআর: ভিডিও সুপার-রেজোলিউশনে প্রয়োজনীয় উপাদানগুলির অনুসন্ধান (সিভিপিআর ২০২১) - openaccess.thecvf.com

  9. arXiv - জেনারেটিভ অ্যাডভারসারিয়াল নেটওয়ার্ক - arxiv.org

  10. arXiv - SRGAN - arxiv.org

  11. arXiv - অনুভূতিগত ক্ষতি (জনসন এবং অন্যান্য, ২০১৬) - arxiv.org

  12. GitHub - রিয়েল-ESRGAN রেপো (টাইল বিকল্প) - github.com

  13. উইকিপিডিয়া - বাইকুবিক ইন্টারপোলেশন - wikipedia.org

  14. টোপাজ ল্যাবস - টোপাজ ছবি - topazlabs.com

  15. টোপাজ ল্যাবস - টোপাজ ভিডিও - topazlabs.com

  16. অ্যাডোবি সহায়তা কেন্দ্র - অ্যাডোবি এনহ্যান্স > সুপার রেজোলিউশন - helpx.adobe.com

  17. NIST / OSAC - ফরেনসিক ডিজিটাল ইমেজ ম্যানেজমেন্টের জন্য স্ট্যান্ডার্ড গাইড (সংস্করণ 1.0) - nist.gov

  18. SWGDE - ফরেনসিক চিত্র বিশ্লেষণের জন্য নির্দেশিকা - swgde.org

অফিসিয়াল এআই অ্যাসিস্ট্যান্ট স্টোরে সর্বশেষ এআই খুঁজুন

আমাদের সম্পর্কে

ব্লগে ফিরে যান