কৃত্রিম বুদ্ধিমত্তা কীভাবে নতুন কনটেন্ট তৈরি করে – পর্ব ১

প্রতিদিন এআই দিয়ে ছবি তৈরি করছি আমরা, বানাচ্ছি ফেসবুক পোস্ট, লিখিয়ে নিচ্ছি নানা ধরনের কনটেন্ট। কৃত্রিম বুদ্ধিমত্তা বা এআই কীভাবে এসব কনটেন্ট তৈরি করে? এর পেছনের প্রযুক্তি, ইতিহাস এবং ভবিষ্যতের নানা দিক উঠে এসেছে এই ধারাবাহিক লেখায়।

এআই কনটেন্ট তৈরি করছে, প্রতীকী ছবিএআই আর্ট

আপনারা অনেকেই হয়তো ইতিমধ্যেই কৃত্রিম বুদ্ধিমত্তা বা এআই ব্যবহার করে কবিতা লিখেছেন, কিংবা ছবি আঁকিয়ে নিয়েছেন। এআই প্রযুক্তির শুরুর দিকে বিভিন্ন তথ্যভাণ্ডার ও অ্যালগরিদম ব্যবহার করে ছবি শনাক্ত করা সম্ভব হলেও এআই দিয়ে একেবারে নতুন কিছু তৈরি বা জেনারেট করা ছিল একরকম অসম্ভব। কিন্তু এখন এআই দিয়ে সহজেই এসব কাজ করা যাচ্ছে। এ নিয়েই আজকের আলোচনা। এ আলোচনায় আমরা জানব, কৃত্রিম বুদ্ধিমত্তা কীভাবে ছবি আঁকতে, ভিডিও কিংবা কনটেন্ট তৈরি করতে পারে। অর্থাৎ জেনারেটিভ বা সৃজনশীল কৃত্রিম বুদ্ধিমত্তার জন্ম হলো কীভাবে?

মনে করুন, একজন শিল্পী আছেন, যিনি খুব সুন্দর করে বিশ্ববিখ্যাত চিত্রশিল্পীদের আঁকা ছবির হুবহু নকল তৈরি করতে পারেন। তিনি লিওনার্দো দ্য ভিঞ্চির সেই বিখ্যাত মোনালিসা ছবিটি নকল করে আঁকলেন। এরপর সেই ছবি পরীক্ষা করতে এলেন একজন দক্ষ শিল্প-সমালোচক, যিনি নকল ছবি ধরতে ওস্তাদ। তিনি পরীক্ষা করে নকল ছবিটার খুঁত বা ভুলগুলো বের করে দিলেন। এরপর সেই নকল শিল্পী আবারও নতুন করে ছবি আঁকলেন এবং এবারে সেই ভুলগুলোকে শুধরে নিলেন। কিন্তু আবার যখন পরীক্ষা করা হলো, দেখা গেল, আবারও কিছু নতুন ভুল পাওয়া গেছে। এভাবে প্রতিবারের ভুল থেকে সেই শিল্পী আরও ভালোভাবে শিখে আরও ভালো নকল ছবি আঁকেন। সমালোচক আবার ভুল ধরে দেন, শিল্পী তখন আরও ভালো নকল আঁকেন। একসময় দেখা গেল, এই নকল প্রায় নির্ভুল, আসলের প্রায় কাছাকাছি। দিনে দিনে নকলকারী এত নিখুঁত ছবি আঁকতে শুরু করলেন যে একদিন সমালোচক সত্যিই বিভ্রান্ত হয়ে পড়লেন। তিনি আর বুঝতেই পারছেন না ছবিটি আসল না নকল!

একসময় দেখা গেল, এই নকল প্রায় নির্ভুল, আসলের প্রায় কাছাকাছি। দিনে দিনে নকলকারী এত নিখুঁত ছবি আঁকতে শুরু করলেন যে একদিন সমালোচক সত্যিই বিভ্রান্ত হয়ে পড়লেন। তিনি আর বুঝতেই পারছেন না ছবিটি আসল না নকল!

এরকম দুজন ব্যক্তি যদি সত্যিকারের মানুষ না হয়ে দুটিই কৃত্রিম বুদ্ধিমত্তা হয়, তবে এই প্রক্রিয়ার মাধ্যমে কৃত্রিম বুদ্ধিমত্তা আরও সুন্দর ও নিখুঁত কিছু তৈরি করতে পারবে। সেটি হতে পারে ছবি, কবিতা কিংবা প্রবন্ধ। ওপরের এ উদাহরণে ‘জালিয়াত শিল্পী’ আসলে এরকমই একটি কম্পিউটার প্রোগ্রাম, আর ‘সমালোচক’ আরেকটি প্রোগ্রাম। তাদের এই প্রতিযোগিতামূলক শেখার পদ্ধতির ধারণাটিই বাস্তবে কৃত্রিম বুদ্ধিমত্তার জগতে এক বিপ্লব ঘটিয়েছিল।

২০১৪ সালে একটি যুগান্তকারী পদ্ধতি প্রস্তাব করা হয়। এর নাম জেনারেটিভ অ্যাডভার্সারিয়াল নেটওয়ার্ক, সংক্ষেপে গ্যান (GAN)। এই পদ্ধতিতে, ঠিক ওই গল্পের মতোই, দুটি এআই মডেল পরস্পরের সঙ্গে প্রতিযোগিতা করে নতুন কনটেন্ট বা তথ্য তৈরি করতে শেখে। এবারের লেখায় থাকছে সেই জেনারেটিভ মডেল কী, তাদের জন্মকাহিনি এবং কীভাবে তারা প্রযুক্তির জগতে সৃজনশীলতার দুয়ার খুলে দিল, সেই গল্প।

জেনারেটিভ মডেল কী

সহজ ভাষায় বললে, জেনারেটিভ মডেল হলো এমন একধরনের কৃত্রিম বুদ্ধিমত্তা মডেল, যা নতুন ডেটা বা কনটেন্ট তৈরি করতে পারে। কনটেন্ট বলতে টেক্সট (যেমন কবিতা, প্রবন্ধ কিংবা চিঠি), ছবি কিংবা ভিডিও—সবকিছুই এর আওতায় পড়ে। চলুন, আরেকটি উদাহরণ দেওয়া যাক। একটি জেনারেটিভ মডেল যদি অসংখ্য প্রাণীর ছবি দেখে শেখে, সে তখন এমন নতুন প্রাণীর ছবি বানিয়ে ফেলতে পারে, যেটি বাস্তবে কোনো ক্যামেরায় তোলা হয়নি; কিন্তু ছবিটি দেখলে সত্যিকারের জীবজন্তুর ছবির মতোই লাগে। অর্থাৎ মডেলটি নিজে নতুন উদাহরণ ‘উৎপাদন’ বা জেনারেট করছে।

অন্যদিকে ডিসক্রিমিনেটিভ মডেল নামে আরেক ধরনের মডেল আছে। এই মডেল কী করে? ধরুন, সেটি অনেক প্রাণীর ছবি দেখে শিখল। এখন তার কাজ হলো নতুন কোনো ছবি দেখলে বলতে পারা, এটা বিড়াল নাকি কুকুরের ছবি। সে নিজে নতুন ছবি বানায় না, শুধু কোনটি কোন প্রাণী, তা শনাক্ত করতে শেখে। সহজ করে বললে, জেনারেটিভ মডেল নতুন কিছু বানায়, আর ডিসক্রিমিনেটিভ মডেল যেকোনো কিছুকে আলাদা করে চিনতে শেখে।

একটি জেনারেটিভ মডেল যদি অসংখ্য প্রাণীর ছবি দেখে শেখে, সে তখন এমন নতুন প্রাণীর ছবি বানিয়ে ফেলতে পারে, যেটি বাস্তবে কোনো ক্যামেরায় তোলা হয়নি; কিন্তু ছবিটি দেখলে সত্যিকারের জীবজন্তুর ছবির মতোই লাগে। অর্থাৎ মডেলটি নিজে নতুন উদাহরণ ‘উৎপাদন’ বা জেনারেট করছে
আরও পড়ুন

সমস্যা হলো, নতুন কিছু বানানো এত সহজ নয়। জেনারেটিভ মডেলকে তাই প্রচুর সূক্ষ্ম বিষয় শিখতে হয়, যা ডিসক্রিমিনেটিভ মডেলকে অনেক সময় শিখতে হয় না। ধরুন, আপনি এমন একটি এআই বানালেন। এটি ছবিতে নৌকা আছে কি না, তা চিনবে। সেটি হয়তো শুধু নৌকার কিছু নির্দিষ্ট আকৃতি বা বৈশিষ্ট্য (যেমন পানির ওপরে ভেসে থাকা একটি কাঠামো, পাল ইত্যাদি) দেখে শিখে নেবে এবং খুব জটিল কিছু না শিখলেও চলবে। কিন্তু আপনি যদি কৃত্রিম বুদ্ধিমত্তাকে বলেন, ‘তুমি নতুন একটা নৌকাসহ নদীর ছবি আঁকো’, তাহলে তাকে অনেক কিছু জানতে হবে। যেমন পানি কেমন হয়, নৌকা সাধারণত পানির ওপরেই থাকে, আকাশের সঙ্গে পানির রঙের সম্পর্ক, আলো-ছায়ার ব্যবহার, ইত্যাদি অসংখ্য সংশ্লিষ্ট ব্যাপার।

উদাহরণস্বরূপ, একটি জেনারেটিভ মডেল যদি মানুষের মুখের ছবি তৈরি করতে চায়, তাকে বুঝতে হবে যে চোখ কপালের ওপর থাকে না, নাক মুখের নিচে থাকে, এবং মুখের দুই পাশে কান থাকে। এ ধরনের অসংখ্য নিয়ম বা প্যাটার্ন তাকে জানতে হবে। অর্থাৎ পুরো ছবির বিন্যাস বা ডিস্ট্রিবিউশন সম্পর্কে ধারণা করতে হবে। তাই জেনারেটিভ মডেলের কাজ অনেক কঠিন; তাকে তথ্যের মধ্যকার সব জটিল সম্পর্ক বুঝে তবেই বিশ্বাসযোগ্য নতুন উদাহরণ বানাতে হবে। এ জন্যই অনেকদিন ধরে জেনারেটিভ মডেল বানানো গবেষকদের জন্য ছিল কঠিন চ্যালেঞ্জ।

গত শতাব্দীর দ্বিতীয় ভাগ থেকে কম্পিউটার বিজ্ঞানীরা জেনারেটিভ কৃত্রিম বুদ্ধিমত্তা নিয়ে কাজ করে যাচ্ছিলেন। শুরুর দিকে সহজ কিছু জেনারেটিভ প্রোগ্রাম ছিল। যেমন ১৯৬০-এর দশকে এলাইজা (ELIZA) নামের একটি চ্যাটবট বানানো হয়েছিল, যা মানুষের কথার কয়েকটি মূল শব্দ বা কি-ওয়ার্ড ধরতে পারলেই প্রতিক্রিয়া জানিয়ে এমন ভান করত যেন সে অর্থটি বুঝতে পেরেছে। পরের দশকগুলোতে ভাষা বা সঙ্গীত তৈরির প্রোগ্রাম কিংবা পরিসংখ্যানগত মডেল তৈরির কাজ শুরু হয়। কিন্তু সত্যিকার অর্থে স্বয়ংক্রিয়ভাবে বাস্তবসম্মত ছবি বা জটিল কনটেন্ট তৈরির ক্ষমতা অনেকদিন ধরেই ছিল সীমাবদ্ধ। কম্পিউটারের প্রসেসিং শক্তি এবং উপযুক্ত অ্যালগরিদমের অভাবে এই ক্ষেত্রটি বেশ ধীরগতিতে এগোচ্ছিল।

১৯৬০-এর দশকের চ্যাটবট এলাইজা (ELIZA)

তবে ২০১০ সালের পরে তিনটি গুরুত্বপূর্ণ জিনিস এই অবস্থার আমূল পরিবর্তন করে। প্রথমত, ডিপ লার্নিং বা গভীর স্তরযুক্ত নিউরাল নেটওয়ার্কের উন্নতি; দ্বিতীয়ত, প্রচুর তথ্যের সহজলভ্যতা; এবং তৃতীয়ত, শক্তিশালী কম্পিউটিং পাওয়ারের সহজলভ্যতা। ২০১০-এর দশকে ডিপ লার্নিংয়ের প্রসার ঘটে এবং ছবি চেনা, ভাষা বোঝা ইত্যাদি ক্ষেত্রে আশ্চর্যজনক ফলাফল আসতে শুরু করে। এই সময়ে প্রযুক্তিবিজ্ঞানীরা জেনারেটিভ মডেলের ক্ষেত্রে নতুন নতুন পদ্ধতি উদ্ভাবন করতে থাকেন। এর মধ্যে একটি ছিল ভেরিয়েশনাল অটোএনকোডার বা ভিএই (VAE) নামে একধরনের মডেল, আরেকটি আমাদের আলোচ্য গ্যান। ভিএই এবং অন্যান্য পদ্ধতিতেও ছবি তৈরি করা যেত, তবে গ্যান এক ভিন্নধর্মী কৌশল নিয়ে এলো, যা জেনারেটিভ মডেলের জগতে এক বিশাল উত্তরণ ঘটায়।

এলাইজার নির্মাতা জার্মান-মার্কিন কম্পিউটার বিজ্ঞানী জোসেফ ভাইজেনবাউম।
আরও পড়ুন

গ্যান: দ্বৈত নেটওয়ার্কের প্রতিযোগিতা থেকে সৃজনশীলতা

জেনারেটিভ অ্যাডভার্সারিয়াল নেটওয়ার্ক বা গ্যান—নাম শুনেই বোঝা যায়, এর ভেতরে একটি ‘জেনারেটিভ’ বা সৃজনশীল অংশ আছে। সঙ্গে আছে একটি ‘অ্যাডভার্সারিয়াল’ তথা প্রতিদ্বন্দ্বিতামূলক অংশ। সহজ করে বললে, গ্যান হচ্ছে দুটি ‘নিউরাল নেটওয়ার্ক’ (একধরনের কৃত্রিম বুদ্ধিমত্তা মডেল), যা একে অপরের প্রতিদ্বন্দ্বী বা প্রতিযোগী হিসেবে প্রশিক্ষিত হয়। এই দুই অংশের নাম কী, সে ইঙ্গিত পাঠক আগেই পেয়েছেন। এক পক্ষকে বলে জেনারেটর (পড়ুন, শিল্পী), আর অন্য পক্ষকে বলে ডিসক্রিমিনেটর (সমালোচক)।

জেনারেটর নেটওয়ার্ক নতুন কিছু বানানোর চেষ্টা করে। যেমন ছবি তৈরির একটি গ্যান-এ জেনারেটর নতুন একটি কৃত্রিম ছবি আঁকে। অন্যদিকে ডিসক্রিমিনেটর নেটওয়ার্ক বিচার করার চেষ্টা করে যে ছবিটি আসল নাকি জেনারেটরের তৈরি নকল। বাস্তবে ডিসক্রিমিনেটরকে শুরুতে অনেক আসল উদাহরণ দেখানো হয়, যাতে সে শিখে নিতে পারে আসল জিনিস কীভাবে চিনতে হয়। তারপর তাকে মাঝেমধ্যে জেনারেটরের বানানো নকল উদাহরণও দেখানো হয়, এবং সে চেষ্টা করে বলে দিতে, কোনগুলো আসল ডেটা আর কোনগুলো নকল।

মজার ব্যাপারটা এখানেই ঘটে: জেনারেটর চায় ডিসক্রিমিনেটরকে বোকা বানাতে, আর ডিসক্রিমিনেটর চায় জেনারেটরের ধোঁকা ধরতে। এই দুটির লক্ষ্য পরস্পর বিপরীত। এক অর্থে তারা একটা প্রতিদ্বন্দ্বিতামূলক খেলায় নেমেছে—একটির সফলতা মানে আরেকটির পরাজয়। আমাদের গল্পের সেই চিত্রশিল্পী আর সমালোচকের দ্বৈরথের মতো। এভাবে প্রতিযোগিতা চলতে চলতে দুটিই নিজ নিজ কাজে উন্নতি করতে থাকে। জেনারেটর আরও বাস্তবসম্মত উদাহরণ তৈরি করতে শেখে, যাতে বিচারক ঠকে যায়; আর ডিসক্রিমিনেটর শেখে কীভাবে আরও সূক্ষ্মভাবে বিচার করে নকল ধরতে হয়।

গ্যান কীভাবে কাজ করে

এই প্রক্রিয়াটি একটু ধাপে ধাপে বোঝার চেষ্টা করি:

১. জেনারেটর নতুন উদাহরণ বানায়: এটি শুরুতে সম্পূর্ণ এলোমেলো কিছু ডেটা (যেমন এলোমেলো সংখ্যার সমষ্টি বা নয়েজ) নিয়ে নিজের মতো করে একটি উদাহরণ তৈরি করে। ধরা যাক, এটি একটি ছবির গ্যান; জেনারেটর এলোমেলো কিছু ডেটা থেকে একটি কৃত্রিম ছবি আঁকল।

২. ডিসক্রিমিনেটর বিচার করে: এখন এই ছবিটি ডিসক্রিমিনেটরের কাছে গেল। ডিসক্রিমিনেটর আগে যে আসল ছবিগুলো দেখেছে, তার জ্ঞান দিয়ে বিচার করে বলে, এই ছবিটি আসল নাকি জেনারেটরের বানানো। অর্থাৎ এটি সত্য-মিথ্যা যাচাই করার চেষ্টা করে।

৩. ফিডব্যাক বা প্রতিক্রিয়া: ডিসক্রিমিনেটর যদি বুঝতে পারে ছবিটি নকল (জেনারেটরের তৈরি), তাহলে সে জেনারেটরকে ধরিয়ে দেয়। বলে, ‘তুমি ধরা পড়ে গেছ, আমি তোমার ছবি চিনে ফেলেছি!’ আবার যদি জেনারেটর এমন ভালো ছবি বানিয়ে ফেলে যে ডিসক্রিমিনেটর ভুলবশত সেটিকে আসল বলে ধরে, তাহলে বলা যায় ডিসক্রিমিনেটর ‘প্রতারিত’ হলো।

৪. উভয়ের শেখা: গুরুত্বপূর্ণ বিষয় হলো, প্রতিটা রাউন্ডের পর দুই পক্ষই শিক্ষা গ্রহণ করে। যদি জেনারেটরের ছবি ধরা পড়ে, তাহলে জেনারেটর শিখে নেয় কেন ধরা পড়ল, ছবিতে কী কী ত্রুটি ছিল—পরেরবার এটি সেই ভুলগুলো শুধরে আরও বাস্তবসম্মত ছবি বানানোর চেষ্টা করে। আর যদি ডিসক্রিমিনেটর কখনো কোনো নকলকে আসল বলে ভুল করে, এটি আবার সেই অভিজ্ঞতা থেকে শিখে নেয়, যাতে পরবর্তীতে এমন ধোঁকা না খায়। এইভাবে বারবার চক্র চলতে থাকে: জেনারেটর প্রতিবার একটু একটু করে ছবি উন্নত করে, ডিসক্রিমিনেটরও প্রতিবার একটু বেশি পারদর্শী হয়ে ওঠে বিচার করতে। একসময় এমন অবস্থা আসে যে জেনারেটর এত চমৎকার ও নিখুঁত উদাহরণ তৈরি করতে সক্ষম হয় যে ডিসক্রিমিনেটর আর পার্থক্য করতে পারে না কোনটা আসল আর কোনটা নকল। ঠিক তখনই প্রশিক্ষণ থামে, কারণ লক্ষ্য অর্জিত হয়েছে—মডেলটি সফলভাবে নতুন ও বাস্তবসম্মত জিনিস বানাতে শিখে গেছে।

আরও পড়ুন

প্রযুক্তিগতভাবে দেখলে, গ্যান হলো এমন একটি ফ্রেমওয়ার্ক, যেখানে জেনারেটর ও ডিসক্রিমিনেটর একটি ‘জিরো-সাম গেম’-এ মেতে ওঠে। এখানে একটির জয় মানে অন্যটির হার। এই পদ্ধতিতে প্রশিক্ষণ দেওয়ার ফলে সরাসরি বলে দেওয়া হয় না কোনো উদাহরণ ঠিক কীভাবে বানাতে হবে; বরং জেনারেটর পরোক্ষভাবে শেখে কীভাবে ভালো উদাহরণ বানানো যায়। কারণ তার একমাত্র উদ্দেশ্য হলো ডিসক্রিমিনেটরকে ধোঁকা দেওয়া। এটি অনেকটা আনসুপারভাইজড লার্নিংয়ের মতো, যেখানে সঠিক উত্তরে সরাসরি লেবেল দেওয়া থাকে না, কিন্তু দুটি নেটওয়ার্কের পারস্পরিক ক্রিয়া থেকেই শিক্ষা অর্জিত হয়।

গ্যান-এর আরেকটি তাৎপর্যপূর্ণ দিক হলো, এটি কোনো একক ডেটা পয়েন্টের সঙ্গে হুবহু মিলিয়ে শেখে না, বরং পুরো ডেটাসেটের বৈশিষ্ট্যগুলো শেখে এবং সেরকম বৈশিষ্ট্যের নতুন নমুনা তৈরি করে। জেনারেটর চায় তার তৈরি করা ডেটা যেন আসল ডেটার মতো পরিসংখ্যানগত বৈশিষ্ট্য বহন করে, যেন ডিসক্রিমিনেটর বুঝতেই না পারে যে সেটি আসল ডেটা থেকে আসেনি। এই কৌশলটি কৃত্রিম বুদ্ধিমত্তার জগতে এক নতুন দিগন্ত খুলে দেয়। কারণ আগের অনেক পদ্ধতিতে ছবি বা ডেটা জেনারেট করতে গিয়ে সরাসরি কোনো একটি টার্গেট ছবির সঙ্গে তুলনা করে ত্রুটি মেটাতে হতো, যা গ্যান-এ দরকার হয় না। এখানে সম্পূর্ণ নতুন কিছু বানিয়েও শেখা যায়, যদি সেটা বাস্তবের সঙ্গে যথেষ্ট মিলে যায়।

সংক্ষেপে, গ্যান এমন এক যুগল-অ্যালগরিদম, যা অত্যন্ত চতুরতার সঙ্গে দুই প্রতিদ্বন্দ্বীর দ্বন্দ্বকে সৃজনশীলতায় পরিণত করে। এখন প্রশ্ন আসে, এতদিন এই ধারণাটি কেউ ভাবেনি কেন? এর পেছনে কার হাত ছিল? এসব প্রশ্নের জবাব জানব এই লেখার পরের পর্বে। জানব গ্যান-এর জন্মকাহিনি।

লেখক: ইঞ্জিনিয়ারিং ম্যানেজার, ওমরন হেলথকেয়ার, সিঙ্গাপুর (স্বাস্থ্যসেবায় কৃত্রিম বুদ্ধিমত্তার প্রয়োগ নিয়ে কাজ করেন)

 সূত্র:

  • Goodfellow, Ian, et al. (2014). "Generative Adversarial Networks."

  • Goodfellow, Ian Interview: “A Man, A Plan, A GAN” (2020)

  • Toloka Blog: "History of generative AI"

  • Christie’s Auction House: "Portrait of Edmond de Belamy" (2018)