কৃত্রিম বুদ্ধিমত্তা কীভাবে নতুন কনটেন্ট তৈরি করে – পর্ব ২
প্রতিদিন এআই দিয়ে ছবি তৈরি করছি আমরা, বানাচ্ছি ফেসবুক পোস্ট, লিখিয়ে নিচ্ছি নানা ধরনের কনটেন্ট। কৃত্রিম বুদ্ধিমত্তা বা এআই কীভাবে এসব কনটেন্ট তৈরি করে? এর পেছনের প্রযুক্তি, ইতিহাস এবং ভবিষ্যতের নানা দিক উঠে এসেছে এই ধারাবাহিক লেখায়। প্রথম পর্বে আমরা জেনারেটিভ মডেল, গ্যান এবং নতুন কনটেন্ট তৈরির প্রক্রিয়াটা দেখেছি। এবারে এর পেছনের মানুষদের কথা জানব সবিস্তারে।
কৃত্রিম বুদ্ধিমত্তা কীভাবে নতুন কনটেন্ট তৈরি করে – পর্ব ১
ইয়ান গুডফেলোর গল্প
ইয়ান গুডফেলোর জন্ম ১৯৮৭ সালে, যুক্তরাষ্ট্রে। ছোটবেলাতেই তাঁর অদ্ভুত সব বিষয়ের প্রতি কৌতূহল ছিল। কখনো ঘড়ি খুলে ভেতরের যন্ত্রপাতি নেড়ে দেখতেন, আবার কখনো বই পড়ে নিজেই বানিয়ে ফেলতেন নতুন গেম। তাঁর মা-বাবা দুজনেই ছিলেন শিক্ষক। তাই তাঁদের বাড়ির পরিবেশ ছিল জ্ঞান ও শেখার অনুরাগে ভরা। তবে ইয়ান ছিলেন একটু অন্যরকম। তিনি কেবল শিখতেই চাইতেন না, বরং জানতে চাইতেন ‘কেন’ এবং ‘কীভাবে’।
প্রথমে তিনি যুক্তরাষ্ট্রের ক্যালিফোর্নিয়ার স্ট্যানফোর্ড ইউনিভার্সিটিতে পড়তে যান। সেখানেই মেশিন লার্নিংয়ের সঙ্গে পরিচয়। তখনো এআই বা কৃত্রিম বুদ্ধিমত্তা নিয়ে গবেষণা জনপ্রিয় হয়ে ওঠেনি। অনেকে তখনো ভাবতেন, কৃত্রিম বুদ্ধিমত্তা শুধু সিনেমার জিনিস। মানে, সায়েন্স ফিকশন। কিন্তু ইয়ান দেখলেন, মেশিন লার্নিং এমন এক ক্ষেত্র, যেখানে কম্পিউটারকে বাস্তব পৃথিবীর জিনিস শেখানো যায়। শেখানো যায় ছবি চিনতে, ভাষা বুঝতে, এমনকি সিদ্ধান্ত নিতেও। তিনি তখন ঠিক করলেন, এই বিষয়টি নিয়েই পড়াশোনা করবেন এবং কাজ করবেন।
স্ট্যানফোর্ডে থাকা অবস্থায়ই তাঁর চিন্তা আরও গভীর হতে থাকে। তবে প্রকৃত গবেষণার জগতে প্রবেশ করেন মন্ট্রিল বিশ্ববিদ্যালয়ে পিএইচডি করতে গিয়ে। সেখানে তখন গবেষণা করছেন ইয়োশুয়া বেঞ্জিও। এই বেঞ্জিওর হাতেই তাঁর গবেষণা শুরু হয়। অর্থাৎ ইয়োশুয়া বেঞ্জিও ছিলেন তাঁর সুপারভাইজার।
ইয়ান গুডফেলোর মাথায় এই আইডিয়া আসে একদম হঠাৎ করে। পরে এক সাক্ষাৎকারে তিনি জানান, গ্যানের ধারণা তাঁর মাথায় আসে এক রাতে বন্ধুদের সঙ্গে আড্ডা দেওয়ার সময়! ২০১৪ সালের সেই সন্ধ্যায় ইয়ান ও তাঁর কয়েকজন বন্ধু একটি সমস্যা নিয়ে আলোচনা করছিলেন।
ইয়োশুয়া বেঞ্জিওর নামটা কি চেনা চেনা মনে হচ্ছে? হ্যাঁ, ঠিক ধরেছেন। ইয়োশুয়া বেঞ্জিও একজন খ্যাতনামা কানাডীয় কম্পিউটার বিজ্ঞানী। কৃত্রিম বুদ্ধিমত্তা, বিশেষ করে ডিপ লার্নিংয়ের অগ্রদূত হিসেবে তিনি বিশ্বজুড়ে পরিচিত। জিওফ্রি হিন্টন, ইয়োশুয়া বেঞ্জিও এবং ইয়ান লেকুন—ডিপ লার্নিংয়ের ভিত্তি গড়ে দেওয়া এই তিন অগ্রদূতকে এখন ‘গডফাদার অব এআই’ বলা হয়। এর স্বীকৃতি হিসেবে তাঁরা যৌথভাবে ২০১৯ সালে কম্পিউটিংয়ের সর্বোচ্চ সম্মাননা ‘টুরিং পুরস্কার’ পেয়েছেন।
যা-ই হোক, ইয়োশুয়া বেঞ্জিওর ল্যাবে ইয়ান শুধু একজন ছাত্রই ছিলেন না, বরং ছিলেন এক ব্যতিক্রমী চিন্তাবিদ। সারাদিন ক্লাস আর গবেষণার ফাঁকে তিনি নিজের কল্পনার জগতে ডুবে থাকতেন। ভাবতেন, কম্পিউটারকে কীভাবে আরও সৃজনশীল বানানো যায়।
গল্পের এই অংশে আপনাদের নিয়ে যাব ২০১৪ সালের গ্রীষ্মে। সারা বিশ্ব ব্রাজিলের বিশ্বকাপ নিয়ে মেতে আছে। ওদিকে ডিপ লার্নিং গবেষণায় প্রচুর অগ্রগতি হচ্ছে ঠিকই, কিন্তু যন্ত্রকে দিয়ে নতুন জিনিস বানানোর কাজ তখনো খুব কঠিন। এমন সময় আমাদের গল্পের নায়ক, তরুণ গবেষক ইয়ান গুডফেলো এবং তাঁর সহকর্মীরা একটি ধারণা বিজ্ঞানীদের কাছে উপস্থাপন করেন। এই আইডিয়াটিই পরে জেনারেটিভ অ্যাডভার্সারিয়াল নেটওয়ার্ক বা গ্যান নামে পরিচিতি পায়। এই গ্যান নিয়ে আমরা প্রথম পর্বে বিস্তারিত আলোচনা করেছি।
ইয়ান গুডফেলোর মাথায় এই আইডিয়া আসে একদম হঠাৎ করে। পরে এক সাক্ষাৎকারে তিনি জানান, গ্যানের ধারণা তাঁর মাথায় আসে এক রাতে বন্ধুদের সঙ্গে আড্ডা দেওয়ার সময়! ২০১৪ সালের সেই সন্ধ্যায় ইয়ান ও তাঁর কয়েকজন বন্ধু একটি সমস্যা নিয়ে আলোচনা করছিলেন। আলোচনার বিষয়, কম্পিউটার প্রোগ্রামকে কীভাবে ছবি তৈরি করতে শেখানো যায়। তাঁদের কয়েকজন ভেবেছিলেন, প্রতিটি চিত্রের জন্য অসীম পরিমাণ তথ্য হিসাব করবে, এরকম কোনো বিশেষ পদ্ধতি প্রয়োগ করতে হবে প্রোগ্রামটিতে। এটা স্পষ্টতই অবাস্তব চিন্তা। ইয়ানের মাথায় তখন অন্য চিন্তা চলছে। আড্ডার মাঝেই চিন্তাটা পূর্ণতা পেল। হঠাৎ করেই তাঁর মনে হলো, ‘আমরা যদি ছবি তৈরির প্রক্রিয়ায় কোনো বিচারককে ঢুকিয়ে দিই, মূল প্রোগ্রামের এটিকে ফাঁকি দিতে হবে, তাহলে কাজটা কেমন হয়?’ অর্থাৎ জেনারেটরকে সরাসরি কৌশল না শিখিয়ে যদি একটি বিচক্ষণ মডেলকে বোকা বানাতে শেখানো যায়, তাহলে জেনারেটর এমনিতেই বাস্তবসম্মত ছবি আঁকা শিখে যাবে। এই ভাবনাটি তার মাথায় এক ঝলকে এসেছিল। বন্ধুরা প্রথমে হাসলেও ইয়ান জানতেন, এটাই বদলে দিতে পারে কৃত্রিম বুদ্ধিমত্তার খোলনলচে।
আসলে গ্যান ছিল আনসুপারভাইজড লার্নিংয়ে এক নতুন দৃষ্টিভঙ্গি। কারণ, এতে লেবেলযুক্ত ডেটা ছাড়াই মডেল দুটো একে অন্যের কাছ থেকে শিখছে। এই পদ্ধতির মৌলিকত্ব ও সম্ভাবনা দেখে বিশ্বজুড়ে কৃত্রিম বুদ্ধিমত্তা গবেষকেরা খুব উৎসাহিত হলেন।
এই বুদ্ধি মাথায় আসামাত্র ইয়ান আর দেরি করেননি। তিনি সেদিন রাতেই বাড়ি ফিরে কম্পিউটারে কোড লেখা শুরু করে দিলেন, তৈরি করলেন গ্যান-এর প্রথম সংস্করণ! সারা রাত জেগে মাত্র কয়েক ঘণ্টার মধ্যেই প্রাথমিক পরীক্ষায় সফলতা পেলেন। খুব সহজ একটি ডেটাসেট দিয়ে শুরু করেছিলেন, হাতে লেখা অঙ্কের ডিজিটের ছোট ছবি, যা এমএনআইএসটি (MNIST) ডেটাসেট নামে পরিচিত। তিনি দেখালেন, গ্যান মডেলটিকে অল্প সময় প্রশিক্ষণ দিলেই সেটা নিজের মতো করে হাতে লেখা ডিজিটের ছবি তৈরি করতে পারে। ভাবতে পারেন, কম্পিউটার নিজে নিজে মানুষের মতো হাতে লেখা সংখ্যা আঁকছে! এই আঁকা পুরোপুরি নতুন, কিন্তু দেখতে একদম মানুষের লেখা সংখ্যার মতো! যদিও এই সাফল্য তখন খুব ছোট পরিসরের ছিল, কারণ MNIST ছবি মানেই ২৮×২৮ পিক্সেলের ছোট্ট সাদা-কালো হাতের লেখা, তবু এটি প্রমাণ করল, এই আইডিয়া বাস্তবে কাজ করে। ইয়ান ও তাঁর দল বুঝে গেলেন, তাঁরা এক নতুন সম্ভাবনার দ্বার উন্মোচন করেছেন।
কিছুদিনের মধ্যেই ইয়ান তাঁর আবিষ্কৃত পদ্ধতির বিস্তারিত লিখে একটি গবেষণাপত্র প্রকাশ করলেন। সেটা ২০১৪ সালের কথা। এই প্রবন্ধ দেখাল, কীভাবে একটি জেনারেটর ও ডিসক্রিমিনেটর একসঙ্গে প্রশিক্ষণ নিয়ে নতুন ডেটা তৈরি করতে পারে। গ্যান-এর আইডিয়া প্রকাশের পর প্রথমে সবাই অবাক হয়। অনেকেই সন্দেহ পোষণ করে। ভাবে, এত সহজ পদ্ধতিতে কি সত্যিই কাজ হবে? তবে অনেক গবেষক প্রথম গ্যান দিয়ে তৈরি হাতে লেখা সংখ্যার ছবি দেখে বুঝে ফেলেন, এই তরুণ নতুন কিছু একটা নিয়ে এসেছে। গ্যান তখন থেকেই এআই গবেষণার সবচেয়ে আলোচিত বিষয় হয়ে ওঠে। কেউ বললেন, এটা চিত্রশিল্পের ভবিষ্যৎ, আবার কেউ বললেন, ভবিষ্যতের চলচ্চিত্র, মডেলিং, ডিজাইন—সব বদলে যাবে এর হাত ধরে।
আসলে গ্যান ছিল আনসুপারভাইজড লার্নিংয়ে এক নতুন দৃষ্টিভঙ্গি। কারণ, এতে লেবেলযুক্ত ডেটা ছাড়াই মডেল দুটো একে অন্যের কাছ থেকে শিখছে। এই পদ্ধতির মৌলিকত্ব ও সম্ভাবনা দেখে বিশ্বজুড়ে কৃত্রিম বুদ্ধিমত্তা গবেষকেরা খুব উৎসাহিত হলেন। খুব দ্রুত বিভিন্ন গবেষণাগারে গ্যান নিয়ে পরীক্ষা-নিরীক্ষা শুরু হয়ে গেল। গ্যান-এর পর ইয়ান গুগলে গবেষণা করেন, ওপেনএআইতেও কিছু সময় কাজ করেন, এবং এরপর অ্যাপলে যোগ দেন। প্রতিটি প্রতিষ্ঠানেই তিনি নতুন চিন্তা ও নতুন দৃষ্টিভঙ্গি নিয়ে কাজ করেছেন।
গ্যান-এর জনপ্রিয়তা ক্রমশ এত বেড়ে গেল যে ২০১৪ থেকে পরবর্তী কয়েক বছরে এটি মেশিন লার্নিং গবেষণায় সবচেয়ে আলোচিত বিষয়গুলোর একটি হয়ে দাঁড়ায়।
বিশ্বাস হতে চায় না, কিন্তু আজকের জেনারেটিভ এআইয়ের সিংহভাগের ভিত্তি সেই এক রাতের আবিষ্কারের ওপর দাঁড়িয়ে আছে, যেখানে এক তরুণ বিজ্ঞানী বন্ধুদের আড্ডায় একটি বিপ্লবের সূচনা করেছিলেন।
গ্যান-এর বিবর্তন
প্রথম গ্যান দিয়ে যেসব উদাহরণ তৈরি হয়েছিল, সেগুলো অবশ্য এখনকার মানদণ্ডে বেশ প্রাণহীন ও নিম্নমানের। যেমন ইয়ানের সহকর্মী বিং সু একটি ক্ষুদ্র মুখাবয়বের ডেটাসেটে (টরন্টো ফেস ডেটাবেস) গ্যান প্রয়োগ করে দেখিয়েছিলেন, গ্যান মানুষের মুখের মতো আউটপুট দিতে পারে বটে, কিন্তু ছবিগুলো খুবই কম রেজুল্যুশনের (মাত্র ৯০×৯০ পিক্সেল) এবং সাদা-কালো। গ্যান যে ছবিগুলো বানিয়েছিল, তা সত্যি বলতে দেখতে অনেকটা বাজে, অর্থাৎ অস্পষ্ট ও বিকৃত ছিল। অর্থাৎ এগুলোতে ঠিক পরিষ্কার বোঝা যায় না কী আছে, অনেকটা এলোমেলো রং ও আকৃতির জগাখিচুড়ি বলা যায়। কিন্তু গবেষকেরা এই ‘বাজে ছবি’গুলোর মধ্যেই নতুন এক সম্ভাবনা দেখতে পেলেন।
ইয়ান পরে রসিকতার ছলে বলেছিলেন, ‘আমরা বহু বছর ধরে জেনারেটিভ মডেলের বানানো বাজে আউটপুট দেখে আসছিলাম, কিন্তু এবারেরগুলো দেখে বুঝলাম, এটা এক নতুন ধরনের বাজে জিনিস!’ অর্থাৎ আগের যেসব মডেল ছবি বানাত, সেগুলোও খারাপ হতো। কিন্তু গ্যান-এর আউটপুট খারাপ হলেও তাতে এমন কিছু বৈশিষ্ট্য ছিল, যা আগে দেখা যায়নি। মনে হচ্ছিল প্রোগ্রামটি আসল ডেটার ধাঁচ অনেকটা ধরে ফেলেছে। গবেষকদের কাছে এটা ছিল সুস্পষ্ট ইঙ্গিত যে গ্যান পদ্ধতিটি মৌলিকভাবে কার্যকর এবং উন্নয়নের মাধ্যমে এটি ভালো ফল দিতে পারবে।
গ্যান উদ্ভাবনের সময় থেকেই ইয়ান গুডফেলো এবং তাঁর দলের কল্পনায় এর অনেক সম্ভাব্য ব্যবহারের ছবি ভেসে উঠতে থাকে। তাঁরা তাদের প্রথম গবেষণাপত্রের শেষাংশে ভবিষ্যতে গ্যান দিয়ে কী কী করা যেতে পারে, তার একটি তালিকা করে দিয়েছিলেন। তার মধ্যে একটি আইডিয়া ছিল ডোমেইন-টু-ডোমেইন ইমেজ ট্রান্সলেশন, অর্থাৎ মিলযুক্ত ডেটা ছাড়াই একধরনের ছবিকে আরেক ধরনের ছবিতে রূপান্তর করা। সত্যিই কয়েক বছরের মধ্যে সেই ধারণা বাস্তবে পরিণত হয়। ক্যালিফোর্নিয়ার একদল গবেষক ২০১৭ সালে গ্যান ব্যবহার করে দেখান, একটি ঘোড়ার ছবিকে জেব্রার ছবিতে রূপান্তর করা যায়, অথচ প্রশিক্ষণের সময় কোনো ঘোড়া-জেব্রার জোড়া ছবি দেখানো হয়নি। এটাই গ্যান-এর জাদু—জেনারেটর ও ডিসক্রিমিনেটর মিলেই শিখে নিতে পারে, কীভাবে ঘোড়ার শরীরে ডোরাকাটা দাগ দিয়ে জেব্রা বানাতে হবে অথবা উল্টোটা কীভাবে করা সম্ভব। ইয়ান স্বীকার করেন, তিনি প্রথমে ভাবেননি গ্যান দিয়ে এমনটা করা যাবে, কিন্তু বাস্তবে এগুলো ঠিকই সম্ভব হয়েছে। এভাবে একের পর এক নতুন পদ্ধতি আর আইডিয়া গ্যানকে কেন্দ্র করে আসতে থাকে এবং প্রতিনিয়ত বিস্ময়ের মাত্রা বাড়তে থাকে কৃত্রিম বুদ্ধিমত্তা মহলে।
গ্যান-এর জনপ্রিয়তা ক্রমশ এত বেড়ে গেল যে ২০১৪ থেকে পরবর্তী কয়েক বছরে এটি মেশিন লার্নিং গবেষণায় সবচেয়ে আলোচিত বিষয়গুলোর একটি হয়ে দাঁড়ায়। ইয়ান নিজেও তাঁর পিএইচডি শেষ করে গুগল, ওপেনএআই, অ্যাপল ইত্যাদি প্রতিষ্ঠানে কাজ করেছেন এবং গ্যান ও ডিপ লার্নিংয়ের অন্যান্য ক্ষেত্রে অবদান রেখেছেন। ২০১৭ সালে তাঁকে এমআইটি টেকনোলজি রিভিউ-এর ৩৫ জন অল্পবয়সী উদ্ভাবকের তালিকায় রাখা হয়, এবং ২০১৯ সালে ফরেন পলিসি পত্রিকার বিশ্ব চিন্তাবিদদের তালিকায়ও স্থান দেওয়া হয় তাঁকে। এত কম সময়ে এত পরিচিতি পাওয়ার মূল কারণ ছিল গ্যান-এর সাফল্য এবং এর সম্ভাবনাময় ব্যবহার।
প্রথম গ্যান উদ্ভাবনের পর থেকেই এর মান উন্নয়নে ব্যাপক কাজ শুরু হয়। ২০১৫-১৬ সালের দিকে গ্যান-এর একটি নতুন সংস্করণ আসে, যা আরও বড় ও রঙিন ছবি তৈরি করতে পারত। এরপর ধাপে ধাপে জেনারেটরের নকশা ও প্রশিক্ষণ কৌশলে উন্নতি হতে থাকে। বিশেষ করে গ্রাফিক্স হার্ডওয়্যার নির্মাতা প্রতিষ্ঠান এনভিডিয়া যখন গ্যান নিয়ে গবেষণা শুরু করে, তখন। তারা অত্যাধুনিক গ্যান উদ্ভাবন করে, যার ফলে বাস্তবসম্মত মুখমণ্ডলের ছবি তৈরি করা সম্ভব হয়।
গ্যানের অগ্রগতি শুধু মুখ বা সাধারণ ছবির মধ্যেই সীমাবদ্ধ থাকেনি। পরবর্তীতে গ্যান দিয়ে অবিশ্বাস্য সব কাজ করা হয়েছে। যেমন কাল্পনিক শিল্পকর্ম, কৃত্রিম বুদ্ধিমত্তার আঁকা ছবি বা ডিপফেক, এমনকি চিকিৎসাক্ষেত্রেও অবদান রেখেছে গ্যা।
২০১৮ সালের দিকে এই ধরনের গ্যান মডেল এত উৎকর্ষ অর্জন করে যে সম্পূর্ণ কাল্পনিক মানুষের মুখের ছবি দিয়েও সামাজিক যোগাযোগ মাধ্যম বা ইন্টারনেটে মানুষকে বিভ্রান্ত করা সম্ভব হচ্ছিল। উদাহরণ হিসেবে একটা ওয়েবসাইটের কথা বলা যায়। ‘দিস পারসন ডাজনট এক্সিস্ট ডটকম’ নামে সে সময় একটা ওয়েবসাইট তৈরি করা হয়েছিল, যেখানে প্রত্যেকবার পেজ রিফ্রেশ করলেই একটি করে নতুন মানুষের মুখের ছবি দেখানো হতো, যার কোনো অস্তিত্বই আসলে নেই! সাইটটি উবারের একজন সফটওয়্যার ইঞ্জিনিয়ার তৈরি করেছিলেন এবং এটি এনভিডিয়ার প্রকাশিত গ্যান অ্যালগরিদম ব্যবহার করে একের পর এক ভুয়া মানুষের মুখের ছবি বানাত। ভাবুন তো অবস্থা, আমরা স্ক্রিনে যে মুখগুলো দেখছি, তাদের কেউই আসল মানুষ নয়, তবু দেখতে যেন একেবারে আসল মানুষের ছবি!
কিন্তু গ্যানের অগ্রগতি শুধু মুখ বা সাধারণ ছবির মধ্যেই সীমাবদ্ধ থাকেনি। পরবর্তীতে গ্যান দিয়ে অবিশ্বাস্য সব কাজ করা হয়েছে। যেমন কাল্পনিক শিল্পকর্ম, কৃত্রিম বুদ্ধিমত্তার আঁকা ছবি বা ডিপফেক, এমনকি চিকিৎসাক্ষেত্রেও অবদান রেখেছে গ্যা। এসবই সাধারণ মানুষকে অবাক করেছে, জন্ম দিয়েছে বহু আলোচনা এবং সমালোচনার। গ্যানের এরকম নানা ব্যবহার এবং কৃত্রিম বুদ্ধিমত্তার কন্টেন্ট তৈরির ভবিষ্যৎ নিয়ে আলাপ করব ধারাবাহিক এই লেখার শেষ পর্বে।
লেখক: ইঞ্জিনিয়ারিং ম্যানেজার, ওমরন হেলথকেয়ার, সিঙ্গাপুর (স্বাস্থ্যসেবায় কৃত্রিম বুদ্ধিমত্তার প্রয়োগ নিয়ে কাজ করেন)
সূত্র:
Goodfellow, Ian, et al. (2014). "Generative Adversarial Networks."
Goodfellow, Ian Interview: “A Man, A Plan, A GAN” (2020)
Toloka Blog: "History of generative AI"
Christie’s Auction House: "Portrait of Edmond de Belamy" (2018)