গুগলের বহুমুখী কৃত্রিম বুদ্ধিমত্তা জেমিনি

জেমিনি উন্মোচন অনুষ্ঠান

চ্যাটজিপিটির প্রতিদ্বন্দ্বী নতুন এক কৃত্রিম বুদ্ধিমত্তা (এআই) তৈরি করেছে গুগল ডিপমাইন্ড। জেমিনি নামের এই এআই একই সঙ্গে ছবি, ভিডিও, অডিও ও টেক্সটের মতো বিভিন্ন ধরনের মাল্টিমিডিয়া বুঝতে পারে এবং সে অনুযায়ী উত্তর দিতে পারে।

বেশির ভাগ কৃত্রিম বুদ্ধিমত্তা প্রযুক্তি কেবল একধরনের কন্টেন্ট বুঝতে বা তৈরি করতে পারে। উদাহরণ হিসেবে চ্যাটজিপিটির কথা বলা যায়। ওপেনএআই-এর এই এআই শুধু টেক্সট বা লেখা হিসেবে দেওয়া তথ্য বুঝতে পারে। তারপর সে অনুযায়ী উত্তর দিতে পারে, তৈরি করতে পারে লেখানির্ভর কন্টেন্ট। আবার মিডজার্নির কথা যদি বলি, এটা লিখে দেওয়া নির্দেশানুযায়ী তৈরি করতে পারে ছবি।

গুগল ডিপমাইন্ডের টেকনিক্যাল রিপোর্ট অনুসারে, জেমিনি আল্ট্রা চ্যাটজিপিটি-৪সহ অন্য এআই মডেলগুলোকে কৃত্রিম বুদ্ধিমত্তা গবেষণা ও উন্নয়নের ৩২টি মানদণ্ডের ৩০টিতেই হারিয়ে দিয়েছে

কিন্তু জেমিনির বিষয়টা ভিন্ন। টেক্সটের পাশাপাশি নানা ধরনের কন্টেন্ট বুঝতে পারে এটি। এমনই দাবি করা হয়েছে গুগলের সম্প্রতি প্রকাশিত এক ব্লগপোস্টে। ৬ ডিসেম্বর  পোস্টটি প্রকাশিত হয়।

প্রাথমিকভাবে জেমিনির ১.০-এর মোট তিনটি সংস্করণ উন্মুক্ত করেছে গুগল। এর মধ্যে জেমিনি আল্ট্রা সবচেয়ে বড় পরিসরে ও সবচেয়ে জটিল ধরনের কাজগুলো করতে পারে। জেমিনি প্রো গুগলের ডিজিটাল সেবাগুলোর সঙ্গে যুক্ত। আর স্মার্টফোনে ব্যবহারের উপযোগী হিসেবে তৈরি করা হয়েছে জেমিনি ন্যানো।

গুগল ডিপমাইন্ডের টেকনিক্যাল রিপোর্ট অনুসারে, জেমিনি আল্ট্রা চ্যাটজিপিটি-৪সহ অন্য এআই মডেলগুলোকে কৃত্রিম বুদ্ধিমত্তা গবেষণা ও উন্নয়নের ৩২টি মানদণ্ডের ৩০টিতেই হারিয়ে দিয়েছে। এসবের মধ্যে কলেজ পর্যায়ের পরীক্ষা থেকে শুরু করে নৈতিকতা, বিজ্ঞান-প্রযুক্তি, আইনের মতো নানা বিষয় রয়েছে। 

বিশেষ করে ছবি বিশ্লেষণের ৯টি, ভিডিও বোঝার ৬টি, ৫টি অডিও ও অনুবাদবিষয়ক মানদণ্ড এবং ১০টি টেক্সট ও যৌক্তিকতা বোঝার মানদণ্ডে সফলভাবে উতরে গেছে গুগলের এই কৃত্রিম বুদ্ধিমত্তা মডেলগুলো। টেক্সট ও যৌক্তিকতা বোঝার দুটি পরীক্ষায় অবশ্য জিপিটি-৪-এর কাছে হেরেছে জেমিনি আল্ট্রা।

একাধিক ধরনের কন্টেন্ট বিশ্লেষণ করতে পারে, এমন মডেল তৈরির কাজটি বেশ কঠিন। কারণ, সে ক্ষেত্রে প্রশিক্ষণের জন্য নানা ধরনের ডেটা সরবরাহ করতে হয় এআইকে। পাশাপাশি ডেটার পরিমাণও হয় বিপুল। কর্মদক্ষতা তাই কমে যায়। বিভিন্ন ধরনের ভুল শুধরে নেওয়ার কাজ করতে গিয়ে দেখা যায়, এআই আর খুব একটা উন্নতি করতে পারছে না। এ সময় কৃত্রিম বুদ্ধিমত্তা মডেলগুলো ‘ওভারফিট’ বৈশিষ্ট্য দেখায়। অর্থাৎ যে সব ডেটা দিয়ে প্রশিক্ষণ দেওয়া হয়েছে, সেগুলোতে ভালো ফলাফল দেয়। কিন্তু নতুন ধরনের ডেটা বা নির্দেশ দেওয়া হলে আর সেসব কাজ সম্পন্ন করতে পারে না।

জেমিনির লোগো

আরেকটি বিষয় হলো, বহুমূখী বা মাল্টিমোডাল প্রশিক্ষণে সাধারণত একেক সময় একেক ধরনের কন্টেন্ট দিয়ে কৃত্রিম বুদ্ধিমত্তাকে প্রশিক্ষণ দেওয়া হয়। এরপর সবকিছুর সমন্বয়ে পূর্ণাঙ্গ করে তোলা হয় মডেলটিকে। জেমিনির ক্ষেত্রে এমন কিছু করা হয়নি। নানা ধরনের কন্টেন্ট একসঙ্গে সরবরাহ করা হয়েছে ট্রেইনিং ডেটাসেট, অর্থাৎ প্রশিক্ষণের জন্য সরবরাহ করা ডেটায়। এসব ডেটা সংগ্রহের জন্য ওয়েব ডকুমেন্ট, বিভিন্ন বই ও কোড ব্যবহার করেছেন গুগল ডিপমাইন্ডের বিজ্ঞানীরা। তবে এই প্রশিক্ষণ দেওয়া হয়েছে মানুষের তত্ত্বাবধানে। অর্থাৎ সুপারভাইজড লার্নিং মডেল—এ ক্ষেত্রে একজন মানুষ বলে দেন, এআই মডেলটি কোথায় ভুল করছে ও কীভাবে শুধরে নিতে হবে—অনুসরণ করা হয়েছে এ ক্ষেত্রে।

আরও পড়ুন

এই প্রশিক্ষণের জন্য একদম উঠেপড়েই লেগেছিল গুগল। নিজেদের একাধিক ডেটা সেন্টারজুড়ে বিস্তৃত অনেক বড় পরিসরের এই কাজে তারা ব্যবহার করেছে বিখ্যাত টেনসর প্রসেসিং ইউনিট বা টিপিইউ। এ ধরনের কয়েক হাজার টিপিউ—যাকে অনেকে এআই এক্সিলারেটর চিপও বলছেন—ব্যবহার করা হয়েছে জেমিনি মডেলকে প্রশিক্ষণ দিতে। নাম শুনেই বোঝা যায় এই চিপের কাজ কী— কৃত্রিম বুদ্ধিমত্তার কাজ আরও গতিশীল করা। গুগলও তাই জানিয়েছে। তাদের কৃত্রিম বুদ্ধিমত্তা গবেষণা বিভাগ—গুগল ডিপমাইন্ড এই চিপ তৈরি করেছে মূলত কৃত্রিম বুদ্ধিমত্তার প্রশিক্ষণ আরও গতিশীল করতে, এমনটাই জানিয়েছে গুগল। শুধু তাই নয়, জেমিনিকে শেখাতে ডিপমাইন্ড ‘সুপারপড’ নামের ৪০৯৬টি চিপসের একটি ক্লাস্টার তৈরি করেছিল। ফলে, আগের চেয়ে অনেক কম সময়ে জেমিনিকে প্রশিক্ষণ দেওয়া গেছে।

তবে এটি এখনো পুরোপুরি ত্রুটিমুক্ত কৃত্রিম বুদ্ধিমত্তা নয়। এখনও এটি মাঝেমধ্যে শতভাগ আত্মবিশ্বাসের সঙ্গে ভুল তথ্য দেয়। অর্থাৎ এই ভুল তথ্যকেই সঠিক বলে মনে করে

ডিপমাইন্ডের বিজ্ঞানীরা জেমিনি এআই মডেল এমনভাবে তৈরি করেছেন, যেন তাৎক্ষণিক প্রয়োজনেও ব্যবহার করা যায়। যেমন ধরুন, আপনি খাবার রান্না করছেন। এমন সময় জেমিনিকে একটা ছবি দিয়ে বললেন, পরের ধাপে কী করতে হবে, তা জানাতে। জেমিনি তাৎক্ষণিক এই নির্দেশ পালন করতে পারবে।

তবে এটি এখনো পুরোপুরি ত্রুটিমুক্ত কৃত্রিম বুদ্ধিমত্তা নয়। এখনও এটি মাঝেমধ্যে শতভাগ আত্মবিশ্বাসের সঙ্গে ভুল তথ্য দেয়। অর্থাৎ এই ভুল তথ্যকেই সঠিক বলে মনে করে। এটাকে বলা হয় ‘হ্যালুসিনেশন’। নামটা যে যথার্থ, তা আর বলতে! যাহোক, এটাই জেমিনিস সবচেয়ে বড় ত্রুটি। প্রশিক্ষণের জন্য সরবরাহ করা ডেটায় বায়াস (পক্ষপাত) বা নানা ধরনের সীমাবদ্ধতার কারণে এমনটা হয়। এ ধরনের ত্রুটি সারিয়ে তোলা কঠিন।

তবু বর্তমান সময়ের অন্যতম অগ্রগামী এআই মডেল হয়ে উঠেছে জেমিনি। গুগলের সার্ভিসের সঙ্গে যুক্ত থাকায় এটা ব্যবহারকারীদের নানাভাবে সাহায্য করতে পারবে। চ্যাটজিপিটিকে বিভিন্ন মানদণ্ডে হারিয়ে দিলেও একদম ছাপিয়ে গেছে, এমনটা এখনই বলা যাচ্ছে না। তবে ভবিষ্যতে জেমিনি কৃত্রিম বুদ্ধিমত্তার জগতে নতুন বিল্পব আনবে, তা বুঝতে রকেট বিজ্ঞানী হওয়ার প্রয়োজন নেই।

লেখক: প্রদায়ক, বিজ্ঞানচিন্তা

সূত্র: লাইভ সায়েন্স, গুগল ব্লগ পোস্ট