প্রযুক্তি
কৃত্রিম বুদ্ধিমত্তা ছবি শনাক্ত করতে শিখল কীভাবে-২
কৃত্রিম বুদ্ধিমত্তার শুরুর গল্প নিয়ে আমরা খানিকটা জেনেছি। জেনেছি, কীভাবে কৃত্রিম বুদ্ধিমত্তা যাত্রা শুরু করল। আজ আমরা জানব কৃত্রিম বুদ্ধিমত্তা তার যাত্রার শুরুর দিকে কীভাবে ছবিকে শনাক্ত করতে শিখল। এ জন্য দরকার ছিল ছবির বিশাল তথ্যভাণ্ডার। সেই প্রয়োজন মেটাতেই জন্ম হয় ইমেজনেটের। এই লেখাটি ইমেজনেটের শুরুর গল্প, এটি তৈরির পেছনের প্রেরণার কাহিনি। কৃত্রিম বুদ্ধিমত্তার জগতে ইমেজনেটের বিপ্লবের কাহিনি। আর এই গল্পের নায়িকা হলেন ফেই-ফেই লি। তাঁর সংগ্রাম, অধ্যবসায় এবং অসাধ্য সাধনের কাহিনি…
ইমেজনেট আয়োজিত প্রথম প্রতিযোগিতা
২০০৯ সালে এক আন্তর্জাতিক সম্মেলনের পোস্টার প্রদর্শনীতে ফেই-ফেই লি ইমেজনেট তথ্যভাণ্ডার তৈরির প্রাথমিক ফলাফল উপস্থাপন করেন। চারদিকে চমকপ্রদ নতুন অ্যালগরিদম নিয়ে আলোচনা, আর এক কোণে ফেই-ফেইয়ের পোস্টারে ১ কোটি ছবির তথ্যভাণ্ডার দেখে অনেকেই অবিশ্বাসে মাথা নাড়ছিলেন। দু-একজন কৌতূহলী দর্শক থামলেন, প্রশ্ন করলেন, ‘এত ছবি একত্র করে আসলে কী হবে?’
ফেই-ফেই দৃঢ়তার সঙ্গে বললেন, ‘বড় ডেটা মডেলগুলোকে আরও শক্তিশালী করবে।’
অনেকেই এটাকে অযথা প্রচেষ্টা ভেবে তেমন গুরুত্ব দেননি। ফেই-ফেই সে সময় খানিকটা হতাশ লাগলেও হাল ছাড়েননি। তিনি জানতেন, একদিন এই পরিশ্রমের ফল সবাইকে দেখাতে পারবেন।
তিনি বুঝলেন, শুধু তথ্যভাণ্ডার হাতে ধরিয়ে দিলে হবে না, গবেষকদের উদ্দীপ্ত করতে এবং তারা যেন এটি ব্যবহার করে উপকৃত হতে পারে, সে জন্য একটি প্রতিযোগিতা আয়োজন করা দরকার।তাই ২০১০ সালে ইমেজনেটের ছবিগুলোর একটি অংশ নিয়ে এক নতুন চ্যালেঞ্জ ঘোষণা করা হলো: বিশ্বের যেকোনো গবেষক দল এই ডেটা ব্যবহার করে তাদের ছবি শনাক্তকারী অ্যালগরিদমকে প্রশিক্ষণ দিয়ে ফলাফল জমা দিতে পারবে।আমরা একটি প্রশিক্ষণ সেট দিলাম (যাতে দলগুলো মডেলকে শিখিয়ে নিতে পারে), আরেকটি ‘গোপন’ টেস্ট সেট রাখলাম।প্রতিযোগিতা শুরু হলে দলগুলো তাদের প্রশিক্ষিত মডেল সার্ভারে আপলোড করবে, আর সেই মডেল আমাদের টেস্ট ছবিগুলোতে প্রয়োগ করে শনাক্ত করবে।শেষে যার মডেল সবচেয়ে বেশি নির্ভুল হবে, সে-ই হবে বিজয়ী।পুরস্কার তেমন আকর্ষণীয় কিছু ছিল না—কোনো নগদ অর্থ নয়, শুধু সম্মাননা, হয়তো একটি টি-শার্ট বা স্মারক কলম।কিন্তু মানুষের স্বভাবই হলো, প্রতিযোগিতায় উত্তেজিত হয়; আর একাডেমিক গৌরবও কম বড় প্রাপ্তি নয়।
প্রথম বছর (২০১০) কয়েক ডজন দল এ প্রতিযোগিতায় অংশ নেয়। আর শেষ পর্যন্ত দুই ডজনের মতো দল তাদের মডেল থেকে প্রাপ্ত ফলাফল জমা দেয়। ফলাফল? ২০১০ সালের সেরা মডেলটি ইমেজনেটের ছবিগুলোকে চিনতে প্রায় এক-তৃতীয়াংশ ক্ষেত্রে ভুল করছিল, অর্থাৎ তার যথার্থতা ছিল আনুমানিক ৭০ শতাংশ। সেটা খুব ভালো ফল নয়; ২০১১ সালে দ্বিতীয়বার প্রতিযোগিতায় ফল সামান্য উন্নত হলেও তখনো ভুলের হার ছিল প্রায় ২৫ শতাংশ বা তারও বেশি।
২০১২ সালে সব সংশয় দূর হয়ে গেল। সে বছরের ইমেজনেট প্রতিযোগিতায় কানাডার টরন্টো বিশ্ববিদ্যালয়ের অধ্যাপক জিওফ্রি হিন্টনের নেতৃত্বে একটি দল ছবি শনাক্তের জন্য নতুন এক পদ্ধতি ব্যবহার করে।
ফেই-ফেই লির মনেও এক মুহূর্তের জন্য সন্দেহ জেগেছিল—হয়তো সমালোচকেরা ঠিকই বলেছিলেন, এত বড় তথ্যভাণ্ডার বেশির ভাগ অ্যালগরিদমের সামর্থ্যের বাইরে। বিজ্ঞানীরা বলছিলেন, তথ্যভাণ্ডারটি অনেক বড় এবং কঠিন। তবে কঠিন বলেই হয়তো সবার আগ্রহ ছিল ও নিয়ে। যারা প্রতিযোগিতায় ভালো করেছিল, তারা মূলত সাপোর্ট ভেক্টর মেশিন নামে একধরনের ছবি সনাক্ত করার প্রযুক্তি ব্যবহার করেছিল। নিউরাল নেটওয়ার্ক প্রযুক্তি গ্রুপের কেউই অতটা ভালো করতে পারেনি। পরের বছর, ২০১১ সালে আরেকটু ভালো হয়ে সেটা ৭৪ শতাংশে উন্নীত হয়।
২০১২: পালাবদলের বছর
২০১২ সালে সব সংশয় দূর হয়ে গেল। সে বছরের ইমেজনেট প্রতিযোগিতায় কানাডার টরন্টো বিশ্ববিদ্যালয়ের অধ্যাপক জিওফ্রি হিন্টনের নেতৃত্বে একটি দল ছবি শনাক্তের জন্য নতুন এক পদ্ধতি ব্যবহার করে। এই পদ্ধতির পেছনের মূল কাজটি করেছিলেন অ্যালেক্স ক্রিজেভস্কি নামের এক তরুণ শিক্ষার্থী। পদ্ধতিটির নাম—ডিপ লার্নিং। এটি একটি শক্তিশালী কৌশল, আর এর পেছনে ভিত্তি হিসেবে কাজ করে কনভোল্যুশনাল নিউরাল নেটওয়ার্ক বা সিএনএন।
আশির দশকে এই কনভোল্যুশনাল নিউরাল নেটওয়ার্ক তৈরি করেন বিজ্ঞানীরা। সংক্ষেপে যদি ব্যাখ্যা করি, তবে বলব—এ পদ্ধতিতে যে অ্যালগরিদম ব্যবহার করা হয়, তা বহু স্তরে ছবি বিশ্লেষণ করে। শুরুতে এটি পিক্সেলের (ছবির গাঠনিক একক) সরল বৈশিষ্ট্য—যেমন প্রান্ত, রঙের মাত্রা—শনাক্ত করে, ক্রমে মধ্যবর্তী স্তরগুলোতে সেসব থেকে জটিল আকার ও নকশা চিনতে শেখে, এবং সবশেষে গিয়ে পুরো ছবিতে কী আছে, তা নির্ধারণ করে। মানুষের মস্তিষ্কে দৃষ্টি বা দেখার প্রক্রিয়ার অনুকরণে কাজ করে এই নেটওয়ার্ক—আগে সরল বৈশিষ্ট্য, পরে জটিল অবজেক্ট শনাক্ত করে। কিন্তু এটি পরে তেমন একটা ব্যবহৃত হয়নি। ফলে প্রয়োগের অভাবে এটি কালের স্রোতে প্রায় হারিয়েই যাচ্ছিল। বহুদিন পর অ্যালেক্স সেটি ফিরিয়ে আনলেন।
অ্যালেক্সের বানানো এ মডেলের নাম রাখা হয়েছিল অ্যালেক্সনেট (AlexNet)। ইমেজনেটের প্রচুর ছবিতে প্রশিক্ষিত এই ডিপ নিউরাল নেটওয়ার্ক এমন এক কীর্তি গড়ে দেখাল, যা কেউ কল্পনাও করেনি। ইমেজনেট প্রতিযোগিতায় এতদিনের সেরা মডেলের তুলনায় এটি ভুলের হার দশ শতাংশেরও বেশি কমিয়ে নিয়ে এল। অর্থাৎ অ্যালেক্সনেট প্রায় ৮৫ শতাংশ নির্ভুলতার সঙ্গে ছবির বস্তু শনাক্ত করল, যেখানে আগের বছরের সেরা ফল ছিল প্রায় ৭৪ শতাংশ। কম্পিউটার ভিশন গবেষকেরা হৈ হৈ করে উঠলেন—এত বড় সফলতা! এ কোনো সাধারণ উন্নতি নয়, এক বিশাল পদক্ষেপ। যেন রাতারাতি কম্পিউটার সত্যিই ছবিতে থাকা জিনিস ‘দেখতে’ শিখে গেছে, ‘চিনতে’ পারছে—প্রায় মানুষের পর্যায়ে পৌঁছানোর ইঙ্গিত যেন পাওয়া যাচ্ছে।
অ্যালেক্সনেটের এই জয় ২০ বছর আগের এক প্রায়-বিস্মৃত অ্যালগরিদম নিউরাল নেটওয়ার্কের প্রতি বিশ্বকে নতুন করে বিশ্বাস করতে বাধ্য করল। আশি ও নব্বইয়ের দশকে একদফা নিউরাল নেটওয়ার্ক নিয়ে আগ্রহ জেগে মরে গিয়েছিল;
সে বছরের অক্টোবর মাসে ইতালির ফ্লোরেন্স শহরে ইউরোপীয় কম্পিউটার ভিশন সম্মেলনে (ECCV) ইমেজনেট প্রতিযোগিতার ফলাফল ঘোষণা করা হয়। ফেই-ফেই লি তখন ক্যালিফোর্নিয়ায়, ছোট শিশুসন্তান তাঁর কোলে। এত দূরে গিয়ে সম্মেলনে যোগ দেওয়া তাঁর জন্য কঠিন। কিন্তু সে বছরের এই নাটকীয় ফল জানার পর তিনি সিদ্ধান্ত নিলেন, ইতিহাসের এই মুহূর্ত তিনি কোনোমতেই মিস করবেন না। দীর্ঘ বিমানযাত্রা, নির্ঘুম রাত—সব উপেক্ষা করে তিনি ফ্লোরেন্স পৌঁছে গেলেন, বিশেষ করে সেই সেশনে অংশ নিতে, যেখানে অ্যালেক্স ক্রিজেভস্কি তাঁর মডেল উপস্থাপন করবেন।
মিলনায়তন কানায় কানায় পূর্ণ, তিল ধারণের জায়গা নেই। ফেই-ফেই লি পেছনের দিকে দাঁড়িয়ে অধীর আগ্রহে শুনছেন। অ্যালেক্স বিস্তারিত বলছেন, কীভাবে মাত্র দুটি শক্তিশালী গ্রাফিকস প্রসেসিং ইউনিট বা জিপিইউ (GPU) ব্যবহার করে তার ডিপ লার্নিং মডেলটিকে প্রশিক্ষণ দেওয়া হয়েছিল এবং কীভাবে এটি বিপুল ছবি-ডেটা থেকে শিখে অসাধারণ ফল দিয়েছে। সেশন শেষে প্রশ্নোত্তর পর্বে হঠাৎ উঠে দাঁড়ালেন কম্পিউটার ভিশনের আরেক অগ্রদূত ইয়ান লেকুন। উত্তেজিত কণ্ঠে তিনি ঘোষণা করলেন, ‘এটি কম্পিউটার দর্শনের (অর্থাৎ কম্পিউটারের দেখতে শেখার) ইতিহাসে নির্দ্বিধায় এক বাঁকবদলকারী মুহূর্ত। এটা প্রমাণ করে দিল, আমরা সঠিক পথে আছি!’
এমন দৃশ্য গবেষণা-সম্মেলনে খুব কমই দেখা যায়। সবাই ফিরে তাকিয়ে দেখল, হলঘরের কোণে দাঁড়িয়ে আছেন সেই কিংবন্ততি ফেই-ফেই লি। সবাই করতালি তাঁকে অভিবাদন জানাল। ফেই-ফেই লির চোখে তখন আনন্দাশ্রু; নিজের স্বপ্ন যে সফল হয়েছে, সেই মুহূর্তে তারই জীবন্ত প্রমাণ তিনি নিজ চক্ষে দেখছেন।
অ্যালেক্সনেটের এই জয় ২০ বছর আগের এক প্রায়-বিস্মৃত অ্যালগরিদম নিউরাল নেটওয়ার্কের প্রতি বিশ্বকে নতুন করে বিশ্বাস করতে বাধ্য করল। আশি ও নব্বইয়ের দশকে একদফা নিউরাল নেটওয়ার্ক নিয়ে আগ্রহ জেগে মরে গিয়েছিল; কিন্তু এতদিন পর হিন্টন ও তাঁর ছাত্রদের কল্যাণে—আর অবশ্যই ফেই-ফেই লির ইমেজনেটের কারণে—নিউরাল নেটওয়ার্কের সুপ্ত দৈত্য যেন জেগে উঠল।
মনে রাখতে হবে, ফেই-ফেই লি নিজে নিউরাল নেটওয়ার্কের আবিষ্কর্তা নন, জিপিউর উদ্ভাবকও নন; কিন্তু তিনি যে উপাদান জুগিয়েছিলেন, তা ছাড়া এই সাফল্য আসত না। বড় নিউরাল নেটওয়ার্কের সঠিকভাবে কাজ করতে যে দুটি জিনিস অপরিহার্য, শক্তিশালী কম্পিউটিং (যা জিপির কারণে সম্ভব হয়েছে) এবং বিশাল প্রশিক্ষণ-ডেটা (যা ইমেজনেট সরবরাহ করেছে)—এই দুটির যুগলবন্দী ২০১২ সালে প্রথমবারের মতো সবার সামনে নিজের সক্ষমতা দেখাল।
২০১২ সালের এই বিজয়ের পর কৃত্রিম বুদ্ধিমত্তা গবেষণার পথ যেন মুহূর্তে বদলে গেল। পত্র-পত্রিকায় প্রচুর লেখা প্রকাশিত হলো এ নিয়ে, এবং বিজ্ঞানীদের পাশাপাশি বড় বড় কর্পোরেট প্রতিষ্ঠানগুলো নড়েচড়ে বসল। পরের বছরগুলোতে ইমেজনেট চ্যালেঞ্জে একের পর এক দল অংশ নিতে লাগল, এবং সবাই এ জন্য ব্যবহার করল ডিপ লার্নিং। ২০১৩ সালে ম্যাথিউ জাইলার নামে এক গবেষক (যিনি নিজেও হিন্টনের শিষ্য) আগের বিজয়ী মডেল বিশ্লেষণ করে আরও উন্নত মডেল নিয়ে এলেন। ২০১৪ সালে ব্রিটেনের অক্সফোর্ড বিশ্ববিদ্যালয়ের দুই গবেষক, ক্যারেন সিমোনিয়ান ও অ্যান্ড্রু জিসারম্যান একটি ভেরি ডিপ নিউরাল নেটওয়ার্ক (নাম: VGGNet) দিয়ে প্রতিযোগিতা জিতে নিলেন; তবে তার আগেই গুগলের একটি দল (তাদের মডেলের নাম গুগলনেট) সমান পারফরম্যান্স দেখিয়ে শিরোপা ভাগ করে নিল। ফল ঘোষণার সঙ্গে সঙ্গে অক্সফোর্ডের ওই দলটিকে গুগল তাদের সদ্য-অধিগ্রহণকৃত ডিপমাইন্ড (DeepMind) ল্যাবে চাকরি দিয়ে দিল।
২০১২-২০১৩ সাল থেকেই সারা বিশ্বে কৃত্রিম বুদ্ধিমত্তা নিয়ে নতুন একধরনের জাগরণ শুরু হলো, যাকে অনেকে ডিপ লার্নিং বিপ্লব বলেন। আর এই পরিবর্তনের কেন্দ্রে ইমেজনেটের ভূমিকা সবাই স্বীকার করে নিলেন।
২০১৫ সালে চীনের বেইজিংয়ে মাইক্রোসফটের গবেষণা ল্যাবের প্রতিভাবান তরুণ ক্যাইমিং হে ও তাঁর সহকর্মীরা তৈরি করলেন রেজনেট (ResNet)। মডেলটি এত ভালো করল যে মানুষের চেয়েও কম ভুল করেই এটি ছবি চিনে ফেলতে পারল। মাত্র পাঁচ-ছয় বছরে ইমেজনেট চ্যালেঞ্জের সেরা মডেলগুলোর সাফল্য ~৭০ শতাংশ নির্ভুলতা থেকে বেড়ে ~৯৭ শতাংশ নির্ভুলতায় পৌঁছে গেল, যা মানব-দক্ষতাকেও পেছনে ফেলে দেয়। এই চমকপ্রদ উন্নতির ধারাবাহিকতায় ২০১৭ সালে ইমেজনেট প্রতিযোগিতার আনুষ্ঠানিক সমাপ্তি ঘোষণা করা হয়। চ্যালেঞ্জের উদ্দেশ্য পূরণ হয়েছে, মেশিনকে দর্শনশক্তি দিতে যে বাধা ছিল, তা অতিক্রম করা গেছে।
কৃত্রিম বুদ্ধিমত্তা প্রযুক্তিতে বিপ্লব
২০১২-১৩ সালের পর থেকে কৃত্রিম বুদ্ধিমত্তাক্ষেত্রে গবেষণার দৃষ্টিভঙ্গিতে বড় রকমের পরিবর্তন এল। এতদিন ধারণা ছিল উন্নততর অ্যালগরিদমই সাফল্যের চাবিকাঠি। কিন্তু ইমেজনেট দেখাল, পর্যাপ্ত, বৈচিত্র্যময় এবং গুণগত মানসম্পন্ন তথ্যভাণ্ডার ছাড়া সেরা অ্যালগরিদমও অকার্যকর। ‘ডেটা ইজ কিং’—এই নীতি গবেষকেরা মেনে নিতে বাধ্য হলেন। ইমেজনেট এবং ২০১২ সালের সেই অ্যালেক্সনেট বিপ্লব শুধু গবেষণা বা প্রতিযোগিতার ফলাফলে সীমাবদ্ধ থাকেনি; এর ঢেউ ছড়িয়ে পড়ল সারা বিশ্বে, কৃত্রিম বুদ্ধিমত্তার গবেষণা এবং তথ্যপ্রযুক্তি প্রতিষ্ঠানগুলোতে।
একসময় যারা ফেই-ফেই লির উদ্যোগকে গুরুত্বহীন ভেবেছিল, তারাই দেখতে পেল কীভাবে বিগ ডেটা আর ডিপ লার্নিংয়ের সমন্বয়ে এক অসম্ভব কৃত্রিম বুদ্ধিমত্তা প্রযুক্তি তৈরি করা সম্ভব। চীনের বাইডু, হুওয়াওয়ের মতো প্রযুক্তি কোম্পানিগুলো ইমেজনেট প্রতিযোগিতার প্রথম দিকের বিজয়ীদের নিজেদের প্রতিষ্ঠানে চাকরি দিল। যুক্তরাষ্ট্রে গুগল ২০১২ সালের বিজয়ী টরন্টো দলের সদস্যদের প্রায় পুরো দলসহ ‘অধিগ্রহণ’ করে নিল বলা যায়, যাতে তারা গুগলে যোগ দিয়ে এই প্রযুক্তিকে আরও এগিয়ে নিতে পারেন। সিলিকন ভ্যালির কোম্পানিগুলোতো হিড়িক পড়ে গেল ডিপ লার্নিং গবেষকদের চাকরি দিয়ে নিজের প্রতিষ্ঠানে নিয়ে নেওয়ার। তথ্যপ্রযুক্তি প্রতিষ্ঠানগুলোতে এক অদৃশ্য প্রতিযোগিতা শুরু হয়ে গেল কোন বিজ্ঞানীকে কত টাকায় নেওয়া যাবে, তা নিয়ে। কৃত্রিম বুদ্ধিমত্তা গবেষকদের চাকরি নিয়ে আর কোনো সমস্যা রইল না। ফলে বিশ্বজুড়ে শিক্ষার্থীরাও এই বিষয় নিয়ে পড়াশোনায় ঝাঁপিয়ে পড়ল।
বলা যায়, ২০১২-২০১৩ সাল থেকেই সারা বিশ্বে কৃত্রিম বুদ্ধিমত্তা নিয়ে নতুন একধরনের জাগরণ শুরু হলো, যাকে অনেকে ডিপ লার্নিং বিপ্লব বলেন। আর এই পরিবর্তনের কেন্দ্রে ইমেজনেটের ভূমিকা সবাই স্বীকার করে নিলেন। শুধু বড় বড় প্রতিষ্ঠান নয়, শিক্ষাক্ষেত্রেও ইমেজনেট এক যুগান্তকারী উদাহরণ হয়ে উঠল। উন্নয়নশীল দেশগুলোতেও কম্পিউটার ভিশন গবেষক কিংবা শিক্ষার্থীরা ইমেজনেটের ওপেন-সোর্স তথ্যভাণ্ডার ডাউনলোড করে নিজেরা পরীক্ষা-নিরীক্ষা শুরু করলেন। আগে যেখানে একটা ভালো তথ্যভাণ্ডারের জন্য প্রতিষ্ঠিত ল্যাবের ওপর নির্ভর করতে হতো, ইমেজনেট তা ভেঙে দিল—যে কেউ, যেকোনো দেশ থেকে, ইন্টারনেট থেকে তথ্যভাণ্ডার নামিয়ে মডেল প্রশিক্ষণ দিতে পারছিলেন।
ইমেজনেটের পদাঙ্ক অনুসরণ করে আরও অনেক তথ্যভাণ্ডার তৈরি হলো। পাশাপাশি শুরু হলো বিভিন্ন ধরনের প্রতিযোগিতা। ২০১৪ সালে MS COCO নামে একটি তথ্যভাণ্ডার যাত্রা শুরু করল, যেখানে শুধু একটা বস্তু শনাক্ত নয়,
কম্পিউটার ভিশনের বাইরে কৃত্রিম বুদ্ধিমত্তার অন্যান্য শাখাতেও এই ‘বড় ডেটা, বড় মডেল’ দর্শন ছড়িয়ে পড়ল। ভাষা প্রক্রিয়াকরণে (ন্যাচারাল ল্যাঙ্গুয়েজ প্রসেসিং বা NLP) বিশাল টেক্সট করপাস বা ভাষার তথ্যভাণ্ডার, বক্তৃতা চিনতে বড় তথ্যভাণ্ডার—সবখানেই ইমেজনেটের সাফল্য নতুন দিগন্তের সূচনা করল। বিশেষ করে ইমেজনেট প্রমাণ করে দিল যে শুধু অ্যালগোরিদম নিয়েই মাথা ঘামিয়ে লাভ নেই, যদি না আপনার কাছে যথেষ্ট তথ্য ভাণ্ডার থাকে। এরপর থেকেই কৃত্রিম বুদ্ধিমত্তা গবেষণার সমীকরণ বদলে গেল—ডেটা হলো নতুন ‘জ্বালানি’, যাকে আশ্রয় করে অ্যালগোরিদম নামে ইঞ্জিন চলবে।
২০১২ সালের পর অনেক দেশেই নিজস্ব বড় তথ্যভাণ্ডার তৈরির প্রকল্প হাতে নেওয়া হয়। মেশিন অনুবাদ, স্বচালিত গাড়ির সেন্সর ডেটা, চিকিৎসা-চিত্র বিশ্লেষণের জন্য বিশাল তথ্যভাণ্ডার গড়ে তোলার উদ্যোগ দেখা গেল। চীনে সরকারি ও বেসরকারি পর্যায়ে বিপুল মুখের ছবি (ফেস রিকগনিশন) ডেটাবেজ, সিসিটিভি ফুটেজ তথ্যভাণ্ডার, এমনকি চীনা ভাষার লাখো কোটি বাক্যের করপাস গঠিত হলো কৃত্রিম বুদ্ধিমত্তার উন্নয়নের জন্য। ইউরোপীয় ইউনিয়নেও ‘ওপেন ডাটা’ উদ্যোগে নানা দেশ থেকে তথ্য সংগ্রহ করে কৃত্রিম বুদ্ধিমত্তার মডেল প্রশিক্ষণের চেষ্টা চলল। বলা যায়, ইমেজনেট যে ধারণার বিজয় ঘটিয়েছিল—‘অনেক ডেটা + ভালো অ্যালগোরিদম + শক্তিশালী কম্পিউটিং = সেরা ফলাফল’, তা বিশ্বজুড়ে প্রতিষ্ঠা পেয়ে গেল।
ভবিষ্যতের পথে
ইমেজনেটের পদাঙ্ক অনুসরণ করে আরও অনেক তথ্যভাণ্ডার তৈরি হলো। পাশাপাশি শুরু হলো বিভিন্ন ধরনের প্রতিযোগিতা। ২০১৪ সালে MS COCO নামে একটি তথ্যভাণ্ডার যাত্রা শুরু করল, যেখানে শুধু একটা বস্তু শনাক্ত নয়, বরং ছবির ভেতরে একাধিক বস্তুকে আলাদা করে চিহ্নিত করার চ্যালেঞ্জ ছুঁড়ে দেওয়া হয়। ইমেজনেট যেখানে প্রতি ছবিতে একটি মূল বস্তু শ্রেণিবদ্ধ করতে হতো, COCO-তে একটি ছবিতে একাধিক বস্তু চিহ্নিত করে বাক্সবন্দী করতে হয়। প্রতিটির জন্য আলাদা শ্রেণি বা ক্যাটেগরি শনাক্ত করতে হয়। এভাবেই কম্পিউটার ভিশন ধীরে ধীরে আরও জটিল এবং বাস্তব দৃশ্যের দিকে অগ্রসর হতে লাগল। গুগলের ওপেন ইমেজ নামে আরেকটি বৃহৎ ডেটাবেজ প্রকাশিত হলো, যাতে প্রায় ৯০ লাখ ছবি ও হাজারেরও বেশি শ্রেণি রয়েছে। এসব উদ্যোগের মূলমন্ত্র একই—বিশ্বজুড়ে ছড়িয়ে থাকা চিত্র-তথ্য সংগ্রহ করে মানুষের দেওয়া লেবেলের মাধ্যমে মেশিনকে শেখানো।
এখন চিত্র বিশ্লেষণের পাশাপাশি গবেষণা এগোচ্ছে ছবির বর্ণনা তৈরি ও নতুন ছবি উদ্ভাবনের দিকেও। উদাহরণস্বরূপ, COCO তথ্যভাণ্ডারে প্রতিটি ছবির সঙ্গে বিস্তারিত ক্যাপশন বা বর্ণনাও যুক্ত করা হয়েছে, যাতে কৃত্রিম বুদ্ধিমত্তা ছবিটির অর্থ ভাষায় প্রকাশ করতে শেখে। আধুনিক অনেক কৃত্রিম বুদ্ধিমত্তার মডেল লাখ লাখ ছবি ও সংশ্লিষ্ট বর্ণনা (ক্যাপশন) দিয়ে প্রশিক্ষিত হচ্ছে এবং এর মাধ্যমে ‘দেখে বলা’ (image captioning) বা ‘শুনে আঁকা’ (text-to-image generation) ধরনের জটিল কাজও সম্ভব হয়ে উঠছে। প্রতিটি ক্ষেত্রেই ব্যবহৃত হচ্ছে ইমেজনেটের মূলমন্ত্র—বড় ডেটা ও শক্তিশালী মডেলের যুগলবন্দী অসাধারণ ফলাফল দিতে পারে।
ইমেজনেট শুধু তথ্যভাণ্ডার হিসেবেই নয়, একটি কমিউনিটিও গড়ে তুলেছিল। যেন একটা ‘ইমেজনেট পরিবার’। ফেই-ফেই লির গবেষণার ল্যাব থেকে অনেকেই পরে কম্পিউটার ভিশনের খ্যাতিমান বিজ্ঞানী হয়েছেন। তাঁর সহকর্মী ও শিক্ষার্থীদের মধ্যে একজন ওলগা রুসাকোভস্কি, তিনি পরে প্রিন্সটন বিশ্ববিদ্যালয়ে অধ্যাপক হয়েছেন এবং কম্পিউটার ভিশনে বৈচিত্র্য বাড়াতে AI4ALL নামে একটি উদ্যোগ শুরু করেছেন। ইমেজনেটের মাধ্যমে যুক্ত হওয়া গবেষকরা শুধু প্রযুক্তিই তৈরি করেননি, বিশ্বব্যাপী গড়ে তুলেছে AI-এর নতুন প্রজন্মের নেতৃবৃন্দ।
প্রিন্সটন বিশ্ববিদ্যালয়ের এক উজ্জ্বল মঞ্চ আলোয় আলোকিত। শত শত শিক্ষার্থীর করতালির মাঝে ফেই-ফেই লি মাইক্রোফোনের সামনে এসে দাঁড়ালেন। প্রায় দুই দশক আগের সেই স্বপ্নযাত্রার গল্প তিনি শোনালেন তাঁদের।
আজ ইমেজনেটের সৃষ্টি কাহিনী রূপকথার মতো শোনালেও এর প্রভাব আমাদের চারপাশে খুব বাস্তব। স্মার্টফোনের ফেস-আনলক করা, স্বচালিত গাড়ির রাস্তা চেনা, অনলাইন ছবিতে স্বয়ংক্রিয় ক্যাপশন তৈরির মতো কাজে যে মডেলগুলো ব্যবহার হচ্ছে, তাদের পূর্বপুরুষরা ইমেজনেট দিয়ে প্রশিক্ষিত হয়ে এই সক্ষমতা অর্জন করতে পেয়েছিল। এমনকি সাম্প্রতিক বড় ভাষা মডেল যেমন চ্যাটজিপিটির সাফল্যের পেছনেও ইমেজনেট যুগের শিক্ষা নিহিত আছে। বড় মডেল এবং বড় ডাটা একসঙ্গে পেলে কী অসাধ্য সাধন করা যায়, তা এই প্রজন্ম ভালোভাবেই শিখে গেছে।
ফেই-ফেই লি এখনো কৃত্রিম বুদ্ধিমত্তার জগতে সক্রিয়, তবে তাঁর লক্ষ্য এখন ‘মানব-কেন্দ্রিক AI’ নির্মাণে। তিনি চান, যেভাবে মেশিনকে ‘দেখতে’ শিখিয়েছেন, এবার মেশিনকে মানবিক মূল্যবোধ আর সহানুভূতিও শেখানো যাবে, যাতে কৃত্রিম বুদ্ধিমত্তা আমাদের সমাজে কল্যাণকর ভূমিকা রাখতে পারে। নিজের সংগঠন ও নীতিমালার মাধ্যমে তিনি বিশ্বকে স্মরণ করিয়ে দেন যে প্রযুক্তিগত অগ্রগতির সঙ্গে সঙ্গে নৈতিক দায়িত্বও নিতে হবে।
ইমেজনেটের কাহিনী তাই শুধু প্রযুক্তিগত সাফল্যের গল্প নয়। এটি এক সাহসী স্বপ্নের গল্প, অধ্যবসায়ের গল্প। অগণিত নাম না-জানা মানুষের প্রচেষ্টার গল্প, যারা অনলাইনে লেবেল দিয়ে এই বিপ্লবে অংশ নিয়েছেন। এটা প্রমাণ করে যে, একটি সঠিক আইডিয়া সঠিক সময়ে, সঠিক দৃষ্টিভঙ্গি ও পরিশ্রম পেলে গোটা ক্ষেত্রকেই বদলে দিতে পারে। ফেই-ফেই লি একটি কথাই প্রমাণ করেছেন, কখনো কখনো বৈপ্লবিক অগ্রগতির জন্য প্রচলতি ধারা ভেঙে সম্পূর্ণ ভিন্ন পথে হাঁটতে হয়—ঠিক যেমন তিনি ভেবেছিলেন, ‘একটি নয়, একসঙ্গে সব কিছুর সমাধান দরকার’। আজ শিক্ষার্থীরা যখন কম্পিউটার ভিশন বা AI শেখে, ইমেজনেটের উদাহরণ তাদের অনুপ্রেরণা জোগায়, বড় চিন্তা করতে শেখায়, ব্যর্থতার ভয় না পেয়ে অজানার পথে চলতে শেখায়।
কথা বলতে বলতে তাঁর চোখে ভেসে ওঠে ইমেজনেটের গোড়ার দিনগুলোর স্মৃতি। এক সময় যে তরুণী অধ্যাপক চাঁদের আলোয় ল্যাবরেটরিতে বসে কোটি ছবির স্বপ্ন বুনেছিলেন, আজ তিনি আনন্দিত হৃদয়ে সেই স্বপ্নের সার্থক পরিণতি প্রত্যক্ষ করছেন।
নভেম্বর ২০২৪। প্রিন্সটন বিশ্ববিদ্যালয়ের এক উজ্জ্বল মঞ্চ আলোয় আলোকিত। শত শত শিক্ষার্থীর করতালির মাঝে ফেই-ফেই লি মাইক্রোফোনের সামনে এসে দাঁড়ালেন। প্রায় দুই দশক আগের সেই স্বপ্নযাত্রার গল্প তিনি শোনালেন তাঁদের। কীভাবে কৌতূহল ও অধ্যবসায় মিলে এক অসাধ্য সাধন সম্ভব করেছেন, জানালেন তা। তিনি বললেন, ‘আমি আমার জীবনে দেখেছি কীভাবে একটি উদ্যোগ পুরো ক্ষেত্রকে বদলে দিতে পারে। তোমরা নতুন প্রজন্ম, এআইয়ের যুগে জন্ম নেওয়া প্রজন্ম, আগামী দিন তোমাদের। সেই ভবিষ্যৎকে আলোকিত করার চাবি হলো মানবকল্যাণকে কেন্দ্র করে প্রযুক্তিকে গড়ে তোলা।’
কথা বলতে বলতে তাঁর চোখে ভেসে ওঠে ইমেজনেটের গোড়ার দিনগুলোর স্মৃতি। এক সময় যে তরুণী অধ্যাপক চাঁদের আলোয় ল্যাবরেটরিতে বসে কোটি ছবির স্বপ্ন বুনেছিলেন, আজ তিনি আনন্দিত হৃদয়ে সেই স্বপ্নের সার্থক পরিণতি প্রত্যক্ষ করছেন। ফেই-ফেই লি মঞ্চে দাঁড়িয়ে হাসিমুখে তরুণদের দিকে তাকালেন, তাঁর চোখে অশ্রু চিকচিক করে উঠল না ঠিকই, তবে সেই দৃষ্টিতে জ্বলজ্বল করছে এক অকৃত্রিম আশা, যে আশা ইমেজনেটের আলোকে নির্মিত এক নতুন ভবিষ্যতের।