প্রযুক্তি
কৃত্রিম বুদ্ধিমত্তা ছবি শনাক্ত করতে শিখল কীভাবে-১
কৃত্রিম বুদ্ধিমত্তার শুরুর গল্প নিয়ে আমরা খানিকটা জেনেছি। জেনেছি, কীভাবে কৃত্রিম বুদ্ধিমত্তা যাত্রা শুরু করল। আজ আমরা জানব কৃত্রিম বুদ্ধিমত্তা তার যাত্রার শুরুর দিকে কীভাবে ছবিকে শনাক্ত করতে শিখল। এ জন্য দরকার ছিল ছবির বিশাল তথ্যভাণ্ডার। সেই প্রয়োজন মেটাতেই জন্ম হয় ইমেজনেটের। এই লেখাটি ইমেজনেটের শুরুর গল্প, এটি তৈরির পেছনের প্রেরণার কাহিনি। কৃত্রিম বুদ্ধিমত্তার জগতে ইমেজনেটের বিপ্লবের কাহিনি। আর এই গল্পের নায়িকা হলেন ফেই-ফেই লি। তাঁর সংগ্রাম, অধ্যবসায় এবং অসাধ্য সাধনের কাহিনি…
কৃত্রিম বুদ্ধিমত্তা নিয়ে কাজ করার সময় প্রথমেই বিজ্ঞানীরা কম্পিউটার দিয়ে ছবি শনাক্ত করার চেষ্টা করেছেন। এই কাজকে বেশি গুরুত্ব দেওয়ার কারণ হলো, ছবি শনাক্ত করতে সত্যিকারের বুদ্ধিমত্তার প্রয়োজন পড়ে। বিজ্ঞানীরা বিশ্বাস করতেন, বুদ্ধিমত্তার প্রাথমিক ধাপই হলো কোনো ছবি শনাক্ত করা। প্রশ্ন আসে, এত কিছু থাকতে ছবি কেন?
একটু ভেবে দেখুন, বুদ্ধিমত্তার একেবারে প্রথমে স্তরটি হলো, আমরা কোনো কিছু দেখে তা শনাক্ত করতে পারি। একটি লাল গোলাপ দেখে আমরা শনাক্ত করতে পারি—এটি এক ধরনের ফুল। গাছে বসে থাকা টিয়া পাখি দেখে আমরা গাছের সবুজ পাতা থেকে পাখিটিকে আলাদাভাবে শনাক্ত করতে পারি। অর্থাৎ প্রাণিকুলের বুদ্ধিমত্তার প্রথম ধাপই হলো কোনো কিছু দেখে চেনা, বোঝা বা শনাক্ত করা। আমাদের দেহের বাইরের জগতের সঙ্গে আমরা সম্পর্ক তৈরি করি এই চোখ দিয়ে। তাই বিজ্ঞানীরা কম্পিউটারকে ছবি দিয়ে তা শনাক্তের চেষ্টা করেছেন। তা ছাড়া কম্পিউটার মূলত কাজ করে ভার্চ্যুয়াল জগতে। এর বাইরের বিশ্বকে সত্যিকার অর্থে বোঝার জন্য কম্পিউটারকে ছবি শনাক্ত করতেই হবে। একটু আগে যে বললাম, সেই টিয়া পাখির কথাই ধরুন। গাছের সবুজ পাতা আর টিয়া পাখির রং খুব কাছাকাছি হলেও আমাদের চোখ সেই রঙের বৈচিত্র্য থেকে পাখিটিকে আলাদা করতে পারে। তার গঠনপ্রণালির সঙ্গে আমাদের দেখা অন্যান্য পাখির গঠনের মিল থেকে আমরা বুঝতে পারি, এটি একটি পাখি। এই অতি সহজ কাজ করতে গিয়ে আমাদের অজান্তেই চোখ ও মস্তিষ্ক অনেক জটিল কাজ করে। আমরা যেহেতু ছেলেবেলা থেকে এভাবে শনাক্ত করতে শিখে যাই, তাই বিষয়টা আলাদা করে টের পাই না।
কোনো কিছু শনাক্ত করার এ কাজটি আমাদের কাছে সহজ মনে হলেও কম্পিউটারের জন্য তা অনেক কঠিন। কাজটা যে এত কঠিন, তা প্রথম উপলব্দি করেন কৃত্রিম বুদ্ধিমত্তা জগতের অন্যতম গবেষক মারভিন মিন্সকি এবং সেমুর পাপার্ট। ১৯৬৬ সালে তাঁরা গ্রীষ্মকালীন প্রকল্পে কিছু স্নাতক শিক্ষার্থীকে একটি কাজ দিয়েছিলেন—একটি টেলিভিশনের ক্যামেরা কম্পিউটারে সংযুক্ত করে কী দেখতে পাচ্ছে, তা বর্ণনা করা। শুরুর আগে সহজ মনে হলেও ব্যাপারটি সহজ ছিল না। ক্যামেরার সিগন্যাল বা তথ্যকে তারা কম্পিউটারে ঢোকাতে পারলেও ছবিগুলো বর্ণনা করার কাজটি সেই গ্রীষ্মে শেষ করা সম্ভব হয়নি। পরে মিন্সকি বলেছিলেন, অন্তত কম্পিউটার ভিশনের ক্ষেত্রে ‘সহজ বিষয়গুলো অনেক কঠিন’। তাঁর এই উক্তির সত্যতা বিজ্ঞানীরা পরে হাড়ে হাড়ে টের পেয়েছিলেন।
এতক্ষণে যে প্রশ্নটা আপনার মনে উঁকি দিচ্ছে, সেটার কথাই এবারে—কেন ছবি শনাক্ত করা কঠিন? আসলে, একটি সাধারণ ছবিতে অনেক কিছু বিভিন্নভাবে থাকতে পারে, যা কম্পিউটারের জন্য প্রসেস করে নির্ণয় করাটা খুব সহজ কাজ নয়। সেই টিয়া পাখিটির কথাই আবার ভাবুন। এই ছবিতে পাখিটি বিভিন্নভাবে থাকতে পারে—একটু বাঁকা হয়ে, সোজা হয়ে; কিংবা ছবিটা নিজেই বাঁকা হতে পারে, আবার এতে কোণ বা অ্যাঙ্গেল ভিন্ন হতে পারে। অর্থাৎ এই একই ছবি বিভিন্ন ধরনের হতে পারে। কম্পিউটারের পক্ষে এগুলো আলাদা করা কঠিন। ছবিগুলো শনাক্ত করতে গিয়ে এত ধরনের সম্ভাবনা বিবেচনা করতে হবে, এতরকম হিসাব কষতে হবে যে সবকটি মাপজোক করে বোঝা অনেক কঠিন হয়ে পড়ে। বিজ্ঞানীদের কাছে বিষয়টা প্রথম দিকে একেবারেই অসম্ভব বলে মনে হয়েছিল।
কিন্তু আমাদের বিজ্ঞানীরা যে একটু পাগলাটে হন, সে তো আপনিও জানেন। তাঁরা কঠিন, অসম্ভব এবং চ্যালেঞ্জিং কাজ পেলে আরও বেশি উৎসাহী হয়ে ওঠেন। সেই সমস্যার সমাধান করার জন্য দিন-রাত এক করে লেগে থাকেন। নিজের কাছে যুক্তিসঙ্গত কোনো পদ্ধতি প্রথমে প্রয়োগ করে দেখেন। হয়তো ব্যর্থ হন। এরপর তিনি সেই কৌশল বিশ্লেষণ করেন; কেন ব্যর্থ হলেন, তা বৈজ্ঞানিক জার্নালে লিপিবদ্ধ করেন; আবার কেউ বৈজ্ঞানিক কনফারেন্সগুলোতে গিয়ে বক্তৃতা দেন, আলোচনা করেন। তাঁর ব্যর্থতার কথা জেনে পরে আরেক বিজ্ঞানী অন্যভাবে চেষ্টা করেন। এভাবে সেই সমস্যাটির সম্ভব্য সমাধানের দিকে বিজ্ঞানীরা এগিয়ে যান।
বিজ্ঞানীরা কীভাবে ছবি শনাক্তের সেই সমস্যার সমাধান করলেন, এ নিয়েই আজকের গল্প।
২.
ছবি শনাক্ত করার জন্য বিজ্ঞানীরা বিভিন্ন ধরনের অ্যালগরিদম তৈরি করছিলেন বেশ কবছর ধরেই। ৮০ থেকে ৯০-এর দশকের দিকে বিজ্ঞানীরা অ্যালগরিদমকেই গুরুত্ব দিয়ে এসেছেন। তাঁদের লক্ষ্য ছিল, যদি ভালো কোনো গাণিতিক অ্যালগরিদম তৈরি করা যায়, তবেই তাঁরা সফল হবেন। কিন্তু অ্যালগরিদমকে প্রশিক্ষণ দেওয়া এবং তা ঠিকমতন কাজ করছে কি না, তা পরীক্ষা করার জন্য অনেক ছবি বা তথ্যের প্রয়োজন ছিল। সেই সময়ে হাজার খানেক ছবিকে কিছু ক্যাটাগরি বা শ্রেণিতে ভাগ করে বিজ্ঞানীরা কাজটি করতেন।
তাঁদের তৈরি অ্যালগরিদম ঠিক মতো কাজ করছে কি না, তা যাচাই করার জন্য তাঁরা নানা ধরনের প্রতিযোগিতা করতেন। তেমনই একটি নামকরা প্রতিযোগিতা হলো প্যাসকেল ভিজ্যুয়াল অবজেক্ট ক্লাসেস। নামটি একটু বিদঘুটে শোনালেও সেই সময়ে বিজ্ঞানীরা এই প্রতিযোগিতার মাধ্যমেই পরীক্ষা করে দেখতেন, তাঁদের সিস্টেমটি কেমন কাজ করে। তাঁদের তৈরি কৃত্রিম বুদ্ধিমত্তা কতটা ভালোভাবে ছবি শনাক্ত করতে পারছে। ২০০৫ থেকে ২০১০ পর্যন্ত বিজ্ঞানীদের মধ্যে বেশ জনপ্রিয় ছিল এই প্রতিযোগিতা। এ ছাড়া আরও কিছু প্রতিযোগিতা ছিল—TRECVID (Text REtrieval Conference Video Retrieval), The Microsoft Research Cambridge (MSRC) Object Recognition Challenge, KTH Action Recognition Challenge, The Caltech 101 and Caltech 256 Challenges ইত্যাদি। (এখানে বলে নিই, বিজ্ঞানীরা প্রতিযোগিতার এমন বিদঘুটে নাম কেন দিতেন, তা বোঝা কঠিন।)
একপর্যায়ে বিজ্ঞানীরা বুঝলেন, তাঁদের অ্যালগরিদমগুলোকে পরীক্ষা করার জন্য এসব তথ্যভাণ্ডার পর্যাপ্ত নয়।
এই প্রতিযোগিতাগুলো কীভাবে হতো? প্রতিযোগিতার শুরুতে আয়োজকেরা প্রথমেই কিছু ছবির ডেটাসেট বা তথ্যভাণ্ডার সবার জন্য উন্মুক্ত করে দিতেন। বিজ্ঞানীরা সেই তথ্যভাণ্ডার দিয়ে তাঁদের কৃত্রিম বুদ্ধিমত্তার অ্যালগরিদমকে প্রশিক্ষণ দিতেন—অর্থাৎ সেখান থেকে কোন ছবিটি কোন বস্তুর, তা বলে দিতেন এবং সে অনুযায়ী বস্তুগুলোকে শনাক্ত করতে বলতেন। এটাই ট্রেনিং বাঁ প্রশিক্ষণ। এরপর বিজ্ঞানীরা তাঁদের অ্যালগোরিদম প্রতিযোগিতায় জমা দিতেন। তখন আয়োজকেরা আরও কিছু ছবির তথ্যভাণ্ডার তৈরি করতেন। এগুলো উন্মুক্ত থাকত না, আয়োজকেরা এগুলো গোপন রাখতেন। এরপর প্রতিযোগিতায় অংশ নেওয়া অ্যালগরিদমগুলোকে সেসব ছবি দিয়ে পরীক্ষা করা হতো। দেখা হতো, এগুলো ছবি সঠিকভাবে শনাক্ত করতে পারছে কি না। এই প্রক্রিয়াকে বলা হয় টেস্ট বা পরীক্ষণ। কোন অ্যালগরিদম সফলভাবে টেস্ট ছবিগুলো শনাক্ত করতে পারল, তার ফলাফল ঘোষণা করা হতো।
সাধারণত এ ধরনের প্রতিযোগিতায় আহামরি কোনো পুরস্কার থাকত না। তারপরেও বিজ্ঞানীরা এই প্রতিযোগিতায় অংশ নিতেন তাঁদের কৃত্রিম বুদ্ধিমত্তার আ্যলগরিদমটি কতটা কার্যকর, তা পরীক্ষা করার জন্য। কম্পিউটার ভিশনে তাঁদের শ্রেষ্ঠত্ব যাচাই করার জন্য। এ ছাড়া প্রতিযোগিতায় ভালো করলে বেশ সুনাম হতো। সেই ল্যাবগুলোতে শিক্ষার্থীরা গবেষণা করার জন্য ভর্তি হতে চাইত। এই প্রতিযোগিতাগুলো ছিল বিজ্ঞানীদের মধ্যেই সীমাবদ্ধ।
এভাবেই সময় এগিয়ে যাচ্ছিল। কিন্তু একপর্যায়ে বিজ্ঞানীরা বুঝলেন, তাঁদের অ্যালগরিদমগুলোকে পরীক্ষা করার জন্য এসব তথ্যভাণ্ডার পর্যাপ্ত নয়। উদাহরণ হিসাবে বলা যায়, প্যাসকেলের প্রতিযোগিতায় মাত্র ১৫ হাজার ছবির তথ্যভাণ্ডার ছিল, যা ফ্লিকার, এবং অনলাইন থেকে সংগ্রহ করা হয়েছিল। এই ছবিগুলোকে মাত্র ২০টি ক্যাটাগরি বা শ্রেণিবদ্ধ করা হয়েছিল, যা বিভিন্ন বিজ্ঞানীর জন্য যথেষ্ট ছিল না। সেই ব্যাপারটির একটি মৌলিক পরিবর্তন করলেন এ গল্পের নায়িকা—ড. ফেই-ফেই লি।
কে এই ফেই-ফেই লি?
৩.
১৯৭৬ সালে চীনে জন্মগ্রহণ করেন ফেই-ফেই লি। কৈশোরেই তিনি মা-বাবার সঙ্গে চীন থেকে যুক্তরাষ্ট্রে পাড়ি জমিয়েছিলেন। অন্যান্য অভিবাসীর মতো তিনিও নতুন দেশে মানিয়ে নিতে গিয়ে কঠিন সময় পার করেছেন। নিউ জার্সির পার্সিপ্যানি শহরে তাঁদের ছোট ড্রাই-ক্লিনিং ব্যবসায় পরিবারকে সাহায্য করতে গিয়ে তাঁকে সপ্তাহান্তে দীর্ঘ সময় কাজ করতে হতো। তবু পড়াশোনায় মেধাবী ফেই-ফেই হাল ছাড়েননি। স্কুলে ইংরেজি ভাষা আয়ত্ত্ব করতে গিয়ে অনেক পরিশ্রম করেছেন এবং সফলভাবে প্রিন্সটন বিশ্ববিদ্যালয়ে ভর্তি হয়ে পদার্থবিদ্যা ও কম্পিউটারবিজ্ঞান নিয়ে পড়েছেন। ২০০৫ সালে ক্যালটেক থেকে কম্পিউটার ভিশনে পিএইচডি ডিগ্রি লাভের পর অল্প বয়সেই তিনি প্রিন্সটনে কম্পিউটারবিজ্ঞান বিভাগের সহকারী অধ্যাপক হিসেবে যোগ দেন।
২০০৬ সালের কথা। ফেই-ফেই লি তখন সদ্য অধ্যাপনা শুরু করেছেন। চারদিকে তাঁর সহকর্মীরা দিনের পর দিন নানা অ্যালগরিদম নিয়ে গবেষণা করছেন, যেন অ্যালগরিদমই সবকিছু সমাধান করবে। কিন্তু ফেই-ফেই অনুভব করলেন, অ্যালগরিদম যতই উন্নত হোক, যদি তাকে শেখানোর জন্য সঠিক ও প্রচুর ডেটা বা তথ্য না থাকে, তবে সেই ট্রেনিংয়ের কাজটি ফলপ্রসূ হবে না। হঠাৎ তাঁর হাতে এল ১৯৮০ সালের দিকে প্রখ্যাত মনোবিজ্ঞানী জন বিডারম্যানের একটি বই—দ্য হিউম্যান ব্রেন। তাঁর বিখ্যাত জিওন থিওরিতে তিনি বলেছেন, শিশুরা জন্মের পরপর তিন বছরের মধ্যে তার চোখে পড়া দৃশ্য থেকে হাজার হাজার বস্তুকে ত্রিমাত্রিক ক্যাটাগরিতে ভাগ করে। ফেই-ফেই লি ভাবলেন, শিশুরা জন্মের পর পৃথিবীর অসংখ্য জিনিস দেখছে, শুনছে, ছুঁয়ে দেখতে দেখতে শিখছে। কম্পিউটারকেও যদি মানুষের মতো অসংখ্য জিনিস দেখিয়ে শেখানো যায়, তাহলে সেটি ভালোভাবে ছবিকে শনাক্ত করতে পারবে। তাঁর এই প্রক্রিয়া আমাদের বলে, বিজ্ঞানীদের শুধু নিজের বিষয় নিয়ে পড়লেই হবে না; তাঁদেরকে দর্শন, ইতিহাস থেকে শুরু করে বিভিন্ন ধরনের জ্ঞান অর্জন করতে হবে। ফেই-ফেই লি পিএইচডিতে কম্পিউটারবিজ্ঞান ও স্নায়ুবিজ্ঞানের সংযোগ নিয়ে কাজ করেছিলেন। মস্তিষ্ক কীভাবে একটি দৃশ্যকে চেনে, সে বিষয়ে গভীরভাবে গবেষণা করেছিলেন তিনি। এ থেকেই তিনি অনুপ্রাণিত হন যে কম্পিউটারকেও হয়তো একই ভাবে শেখানো সম্ভব, যদি যথেষ্ট ছবির তথ্য তাকে দেওয়া যায়।
আগেই উল্লেখ করেছি, তখনকার দিনে কম্পিউটার ভিশন গবেষণায় ব্যবহৃত তথ্যভাণ্ডারগুলো খুবই ছোট ছিল। কয়েক হাজার বা বড় জোর লাখের ঘরের নিচে সীমাবদ্ধ তথ্য দিয়ে মেশিনকে খুব বেশি কিছু শেখানো যাচ্ছিল না। ফেই-ফেইয়ের মনে হলো, এভাবে ছোট ডেটায় সীমাবদ্ধ থাকলে কম্পিউটার কিছুই শিখবে না। তিনি চাইলেন সম্পূর্ণ নতুন কিছু করতে, সত্যিই ‘ইতিহাসে যা আগে কখনো হয়নি’—এমন কিছু করার কথা ভাবলেন। তিনি ঠিক করলেন, পৃথিবীর সব সাধারণ জিনিসের ছবি একত্র করবেন, একেবারে একটি বিশ্বকোষের মতো চিত্রভাণ্ডার বানাবেন। সেই বিশাল তথ্যভাণ্ডার দিয়ে কম্পিউটারকে শেখাবেন ‘বিড়াল’, ‘কুকুর’, ‘গাড়ি’, ‘গাছ’ ইত্যাদি কেমন।
এই স্বপ্নের বীজ বপন করে তিনি তাঁর কয়েকজন ছাত্রকে নিয়ে কাজ শুরু করলেন। উদ্দেশ্য একটাই: একটি বিশাল মানচিত্র বানানো, যেখানে জগতের সব বস্তু, প্রাণী, ফল-ফুলের ছবি থাকবে। এর নাম দেওয়া হলো ইমেজনেট।
প্রথম চ্যালেঞ্জ ছিল ছবিগুলো জোগাড় করা। ইন্টারনেট তখন ক্রমে বড় হচ্ছে, মানুষ লাখ লাখ ছবি আপলোড করছে। ফেই-ফেই ঠিক করলেন, ইন্টারনেট থেকে ছবি নামিয়ে সংগ্রহ করবেন। সত্যিই এক মহাযজ্ঞ পরিকল্পনা—কয়েক শ কোটি ছবি নামাতে হবে, তারপর ছেঁকে ছেঁকে কাজের ছবি বেছে রাখতে হবে।
২০০৭ থেকে শুরু হলো বিরাট পরিশ্রম। ফেই-ফেই লি এবং তাঁর ছাত্ররা সার্চ ইঞ্জিন থেকে প্রায় ১০০ কোটি ছবি নামাতে লাগলেন।
প্রিন্সটন বিশ্ববিদ্যালয়ের এক নিঝুম রাত্রি। গবেষণাগারের জানালা দিয়ে চাঁদের ম্লান আলো পড়েছে কম্পিউটার স্ক্রিনের ওপর। ফেই-ফেই লি টানা কয়েক ঘণ্টা ধরে স্ক্রিনের সামনে বসে আছেন; ক্লান্ত চোখে তিনি হাজার হাজার ছবির ভিড় দেখছেন। তাঁর সহকর্মীদের অনেকেই ইতিমধ্যে ঘরে ফিরে গেছেন। কিন্তু ফেই-ফেই থামেননি। তিনি এক অদ্ভুত স্বপ্ন দেখে ফেলেছেন: ইন্টারনেট থেকে কোটি কোটি ছবি সংগ্রহ করে একটি সুবিশাল ডেটাবেজ বানাবেন, যা দিয়ে কম্পিউটারকে শেখানো যাবে কীভাবে ছবি চিনতে হয়। এমন স্বপ্ন অনেকের কাছে পাগলামি মনে হলেও ফেই-ফেইয়ের মনে ততক্ষণে বীজ বোনা হয়ে গেছে।
২০০৭ থেকে শুরু হলো বিরাট পরিশ্রম। ফেই-ফেই লি এবং তাঁর ছাত্ররা সার্চ ইঞ্জিন থেকে প্রায় এক বিলিয়ন (১০০ কোটি) ছবি নামাতে লাগলেন। শব্দ ধরে ধরে ছবি খোঁজা চলল: ‘বিড়াল’ লিখে হাজার হাজার ছবি নামানো হচ্ছে, ‘গাড়ি’ লিখে আরও হাজার হাজার। ইন্টারনেটে থাকা ছবির মধ্যে ভুলভ্রান্তিও কম ছিল না। একটি কীওয়ার্ড দিয়ে নামালে সংশ্লিষ্ট আসল ছবির সঙ্গে অনেক অবাঞ্ছিত ছবিও এসে পড়ত। উদাহরণস্বরূপ, German Shepherd (জার্মান শেফার্ড) লিখে সার্চ করলে সত্যিকারের জার্মান শেফার্ড কুকুরের ছবি তো আসতই, পাশাপাশি হয়তো কোনো কার্টুন কুকুর, জার্মান শেফার্ড কুকুরের খেলনা, অথবা German Shepherd নামের পোস্টার ইমেজও চলে আসত। এসব অনাকাঙ্ক্ষিত ছবিগুলো মানুষদের দিয়েই ছাঁটাই করতে হয়েছে, যাতে ইমেজনেট তথ্যভাণ্ডারে কেবল সত্যিকার অর্থে সেই শ্রেণির ছবি থাকে।
এই বিশাল কাজ একা তাঁর পক্ষে করা অসম্ভব।তাই তিনি বিশ্ববিদ্যালয়ের স্নাতক পর্যায়ের শিক্ষার্থীদের দিয়ে এসব ছবি শ্রেণিবদ্ধ করাবেন—কোন ছবিতে বিড়াল আছে, কোনটিতে গাড়ি আছে, ইত্যাদি লেবেল করাবেন ভাবলেন।কিন্তু তিনি কাজ শুরু করার পরে বুঝতে পারলেন, এটি প্রায় অসম্ভব।স্ট্যানফোর্ড বা প্রিন্সটনের সব শিক্ষার্থীকেও যদি এই কাজে লাগানো যায়, তবু কাজটি শেষ করতে ২০ বছর লেগে যাবে।এই সমস্যা কিভাবে সমাধান করা যায়, তা নিয়ে ফেই-ফেই লি চিন্তিত হয়ে পড়লেন।
২০০৬ সালের শীতকালের কথা। যুক্তরাষ্ট্রের ইলিনয়ের চ্যাম্পেইন শহর। এখানেই থাকেন ফেই-ফেই লি। তিনি নিজের অফিসে বসে আছেন, নজর আউটপুটের ওপর। কম্পিউটারের স্ক্রিনে ইমেজনেট প্রকল্পের কোড, তথ্যভাণ্ডার এবং বিপুল ছবি দেখা যাচ্ছে। তিনি জানতেন, এই প্রকল্পকে আরও বড় কিছুতে পরিণত করতে হবে। তবু তাঁর মনে হচ্ছিল যেন এক গভীর সমুদ্রের মধ্যে হারিয়ে গেছেন। কীভাবে এই বিশাল তথ্যভাণ্ডারকে ক্যাটাগরিতে ভাগ করবেন, কীভাবে ছবির সঠিক লেবেলিং করবেন—এগুলো যেন তাঁর কাছে অসাধ্য হয়ে দাঁড়িয়েছিল। দীর্ঘ সময় ধরে চেষ্টা করেও তিনি কোনো সমাধান খুঁজে পাচ্ছিলেন না। হতাশ হয়ে ফেই-ফেই তার কম্পিউটার বন্ধ করে হাঁটার জন্য বেরিয়ে পড়লেন।
হাঁটতে হাঁটতে এসে হাজির হলেন তাঁর প্রিয় দ্য ব্রেড কোম্পানির রেস্তোরাঁয়। এই রেস্টুরেন্টের স্যান্ডউইচ তাঁর খুব প্রিয়। দোকানের দরজা খুলে ভেতরে ঢুকে সাদামাটা কাঠের টেবিলে বসে তিনি নিজের প্রিয় স্যান্ডউইচ ও কফির অর্ডার দিলেন। ফেই-ফেই যখন কফিতে চুমুক দিচ্ছিলেন, হঠাৎ তাঁর কানে এল দুজনের আলাপ।
অ্যামাজন মেকানিক্যাল টার্ক নামে একটা প্ল্যাটফর্মে কাজ করছি এখন। কাজটি খুব সহজ। আমি শুধু ছবি দেখি, এবং শনাক্ত করে দিই এটি কিসের ছবি
একজন বলছিলেন, ‘তুমি জানো, আমি ঘরে অলস সময় না কাটিয়ে অনলাইনে পার্টটাইম করে কিছু অর্থ উপার্জন করছি?’
‘কেমন করে?’ অপরজনের জিজ্ঞাসা।
‘অ্যামাজন মেকানিক্যাল টার্ক নামে একটা প্ল্যাটফর্মে কাজ করছি এখন। কাজটি খুব সহজ। আমি শুধু ছবি দেখি, এবং শনাক্ত করে দিই এটি কিসের ছবি। এভাবে ক্যাটাগরি করেই আমি ঘরে বসে অর্থ উপার্জন করি। কয়েক ডলারে হাজার হাজার ছবি চিহ্নিত করতে অ্যামাজন এ পদ্ধতি ব্যবহার করছে।’
‘এ তো দারুণ! তাহলে ঘরে বসে আমিও এ কাজ করতে পারব। ছবি শনাক্ত করা তো কঠিন কোনো কাজ না।’
এ কথা শুনে ফেই-ফেই থমকে গেলেন। এই তো! এটাই হতে পারে তাঁর সমস্যার সমাধান। অ্যামাজন মেকানিক্যাল টার্ক একটি অনলাইন প্ল্যাটফর্ম, যেখানে বিশ্বের যেকোনো প্রান্ত থেকে মানুষ কাজ করতে পারে, বিশেষত যেসব কাজ স্বয়ংক্রিয়ভাবে করা সম্ভব নয়। তিনি বুঝতে পারলেন, এখানে বিশেষজ্ঞ নয়, সাধারণ মানুষের সাহায্য নিয়ে ছবি চিহ্নিত করার কাজটি দ্রুত এবং কার্যকরভাবে সম্পন্ন করা সম্ভব। এটিই তাঁর সেই ‘ইউরেকা’ মুহূর্ত।
ফেই-ফেই তাঁর কফি শেষ করে রেস্তোরাঁ থেকে বেরিয়ে এসে দ্রুত ল্যাপটপ খুলে বসলেন। অ্যামাজন মেকানিক্যাল টার্কের সঙ্গে যোগাযোগ শুরু করলেন, এবং দ্রুত প্রয়োজনীয় ব্যবস্থা নিলেন। ফেই-ফেই লি জানতেন, এক কাপ কফি এবং সেই সাধারণ আলাপ তাঁকে এমন এক ধারণা পেতে সাহায্য করেছিল, যা পুরো পৃথিবীকে বদলে দিতে পারে।
ফেই-ফেই অ্যামাজনের এই প্ল্যাটফর্মকে কাজে লাগালেন। ইন্টারনেটে ঘোষণা দিলেন, ‘ছবি লেবেল করার কাজ আছে, প্রতি ছবির জন্য সম্মানী মিলবে।’ আশ্চর্যজনকভাবে, তাঁর আহ্বানে সাড়া দিতে শুরু করল বিশ্বজোড়া সাধারণ মানুষ। ধীরে ধীরে এক বিশাল বৈশ্বিক দল গড়ে উঠল, যারা অনলাইনে বসে ইমেজনেটের ছবিগুলো শ্রেণিবদ্ধ করতে শুরু করল। তিন বছর ধরে চলল এই অসাধারণ কর্মযজ্ঞ। শেষ পর্যন্ত বিশ্বের ১০০টিরও বেশি দেশের হাজার হাজার কর্মী এতে অংশ নিয়েছিলেন। এভাবে ইমেজনেট প্রকল্প সত্যিকার অর্থেই গ্লোবাল বা বৈশ্বিক হয়ে উঠল।
একটি দৃশ্য কল্পনা করুন: বাংলাদেশের কোনো গ্রামে রাতের বেলা এক তরুণ শিক্ষার্থী ল্যাপটপে বসে আছেন। মনোযোগ দিয়ে নানা ছবির মধ্যে কী আছে দেখছেন এবং প্রতিটির পাশে ‘বিড়াল’, ‘কুকুর’ বা এমন কোনো ট্যাগ লিখে দিচ্ছেন। অন্যদিকে ইউরোপের কোনো শহরে সকালে এক গৃহিণী অতিরিক্ত আয়ের জন্য একইভাবে ছবি লেবেল করছেন। তাঁরা হয়তো জানেন না কেন এই কাজ করছেন, শুধু জানেন অনলাইনে দেওয়া এই ছোট কাজের জন্য তাঁরা কিছু অর্থ পাবেন। অথচ তাঁদের লেবেল করা সেই অগণিত ছবিই ধীরে ধীরে গড়ে তুলছিল এক বিপ্লবের ভিত্তি, যা পরে সারা বিশ্বের কম্পিউটারকে দেখতে শেখাবে।
২০১০ সালে ফেই-ফেই লি এবং তাঁর দলের অবিশ্বাস্য অধ্যবসায়ের ফল প্রকাশ পেল। ইমেজনেট তথ্যভাণ্ডার শেষ পর্যন্ত তৈরি হয়ে গেল। এতে প্রায় দেড় কোটি (১৫ মিলিয়ন) ছবি জমা হলো, এবং ছবিগুলোকে বিষয়বস্তুর ওপর ভিত্তি করে ২২ হাজার শ্রেণিতে ভাগ করা হলো। এত বিপুল শ্রেণির নাম ঠিক করার জন্য ফেই-ফেই একটি উপায় বের করেছিলেন। প্রিন্সটনে একসময় জর্জ মিলার নামে এক গবেষক ওয়ার্ডনেট (WordNet) নামে একটি ইংরেজি শব্দভাণ্ডার তৈরি করেছিলেন, যেখানে তাঁর গবেষক দল ২২ হাজারটির কাছাকাছি ‘সিনসেট’ (অর্থাৎ কাছাকাছি অর্থযুক্ত শব্দের দল) বেছে নিয়েছিলেন। প্রতিটি সিনসেট একটি বিশেষ ধারণা বা বস্তুকে নির্দেশ করে। সেই শব্দগুলোকেই শ্রেণির নাম ধরে নিয়ে তাদের অন্তর্গত ছবিগুলো ইমেজনেট ডেটায় রাখা হয়েছিল। অর্থাৎ, ইমেজনেটের গোটা শ্রেণিবিন্যাসটি ওয়ার্ডনেটের সাহায্যে একটি সুবিন্যস্ত কাঠামো পেয়েছিল।
এত বড় তথ্যভাণ্ডার এর আগে কম্পিউটার ভিশনে তো দূরের কথা, সমগ্র কৃত্রিম বুদ্ধিমত্তার গবেষণার ক্ষেত্রেই দেখা যায়নি। প্রতিটি ছবি মানুষের দ্বারা লেবেল করা, প্রতিটি বিভাগের নামকরণ করা হয়েছে পরিচিত জগতের কোনো না কোনো বস্তু বা প্রাণীর নামে। একটি আস্ত দৃশ্যপটের যেমন বহু উপাদান থাকে, সেভাবে ইমেজনেট যেন আমাদের চেনা পৃথিবীর দৃশ্যগুলোর ডিজিটাল সংস্করণ।
দুঃখের বিষয় হলো, বিজ্ঞানীরা শুরুতে এই প্রকল্পকে তেমন গুরুত্ব দেননি। অনেকেই ভাবছিলেন, এত সময় ও শ্রম নষ্ট করে তথ্যভাণ্ডার বানানোটা বোকামি ছাড়া কিছু না। সহকর্মীদের কেউ কেউ ফেই-ফেইকে নিরুৎসাহিত করেছিলেন, কেউ সরাসরি বলেছিলেন ‘এই কাজ তোমার ক্যারিয়ারের জন্য আত্মঘাতীও হতে পারে।’ কোনো কোনো সম্মেলনে তো প্রকাশ্যে সমালোচনাও শুনতে হয়েছিল তাঁকে, ‘এভাবে সবকিছুর ছবি জোগাড় করার দরকার কী? একটা একটা করে বিষয়ের ওপর কাজ করলে তো আরও ভালো বোঝা যাবে।’ ফেই-ফেই লি এসব শুনে হেসে উত্তর দিয়েছিলেন, ‘বড় লক্ষ্য অর্জন করতে গেলে প্রয়োজনীয় মজবুত ভিত্তিটাও আমাদেরই গড়ে নিতে হবে। কৃত্রিম বুদ্ধিমত্তার জন্য এই তথ্যভাণ্ডার হলো সেই ভিত্তি।’
তবু রাতের নির্জনে একলা বসে ফেই-ফেই লির মনে কখনো কখনো সন্দেহ জাগত। নিজের মনকেই প্রশ্ন করতেন, ‘আমি কি ভুল পথে হাঁটছি?’ কিন্তু পরক্ষণে দৃঢ়তার সঙ্গে নিজেকে উত্তর দিতেন, তিনি সঠিক পথেই আছেন, এ তথ্যভাণ্ডারই ভবিষ্যতের চাবিকাঠি। এই বিশ্বাস তাঁকে আবার কম্পিউটারের পর্দায় ফেরাত, নতুন উদ্যমে কাজে ঝাঁপিয়ে পড়তেন তিনি। ফেই-ফেই লি হাল ছাড়েননি; তিনি দৃঢ়ভাবে বিশ্বাস করতেন, তাঁর পথেই লুকিয়ে আছে আলোকিত ভবিষ্যৎ। নিঃশব্দে তিনি ও তাঁর দল কাজ চালিয়ে গেছেন বহু বছর; এভাবে তাঁরা অসাধ্যকে সম্ভব করেছেন।