আপডেট

গুগলের বহুমুখী কৃত্রিম বুদ্ধিমত্তা জেমিনি

আব্দুল্লাহ আল মাকসুদ

জেমিনি উন্মোচন অনুষ্ঠান

চ্যাটজিপিটির প্রতিদ্বন্দ্বী নতুন এক কৃত্রিম বুদ্ধিমত্তা (এআই) তৈরি করেছে গুগল ডিপমাইন্ড। জেমিনি নামের এই এআই একই সঙ্গে ছবি, ভিডিও, অডিও ও টেক্সটের মতো বিভিন্ন ধরনের মাল্টিমিডিয়া বুঝতে পারে এবং সে অনুযায়ী উত্তর দিতে পারে।

বেশির ভাগ কৃত্রিম বুদ্ধিমত্তা প্রযুক্তি কেবল একধরনের কন্টেন্ট বুঝতে বা তৈরি করতে পারে। উদাহরণ হিসেবে চ্যাটজিপিটির কথা বলা যায়। ওপেনএআই-এর এই এআই শুধু টেক্সট বা লেখা হিসেবে দেওয়া তথ্য বুঝতে পারে। তারপর সে অনুযায়ী উত্তর দিতে পারে, তৈরি করতে পারে লেখানির্ভর কন্টেন্ট। আবার মিডজার্নির কথা যদি বলি, এটা লিখে দেওয়া নির্দেশানুযায়ী তৈরি করতে পারে ছবি।

গুগল ডিপমাইন্ডের টেকনিক্যাল রিপোর্ট অনুসারে, জেমিনি আল্ট্রা চ্যাটজিপিটি-৪সহ অন্য এআই মডেলগুলোকে কৃত্রিম বুদ্ধিমত্তা গবেষণা ও উন্নয়নের ৩২টি মানদণ্ডের ৩০টিতেই হারিয়ে দিয়েছে

কিন্তু জেমিনির বিষয়টা ভিন্ন। টেক্সটের পাশাপাশি নানা ধরনের কন্টেন্ট বুঝতে পারে এটি। এমনই দাবি করা হয়েছে গুগলের সম্প্রতি প্রকাশিত এক ব্লগপোস্টে। ৬ ডিসেম্বর পোস্টটি প্রকাশিত হয়।

প্রাথমিকভাবে জেমিনির ১.০-এর মোট তিনটি সংস্করণ উন্মুক্ত করেছে গুগল। এর মধ্যে জেমিনি আল্ট্রা সবচেয়ে বড় পরিসরে ও সবচেয়ে জটিল ধরনের কাজগুলো করতে পারে। জেমিনি প্রো গুগলের ডিজিটাল সেবাগুলোর সঙ্গে যুক্ত। আর স্মার্টফোনে ব্যবহারের উপযোগী হিসেবে তৈরি করা হয়েছে জেমিনি ন্যানো।

গুগল ডিপমাইন্ডের টেকনিক্যাল রিপোর্ট অনুসারে, জেমিনি আল্ট্রা চ্যাটজিপিটি-৪সহ অন্য এআই মডেলগুলোকে কৃত্রিম বুদ্ধিমত্তা গবেষণা ও উন্নয়নের ৩২টি মানদণ্ডের ৩০টিতেই হারিয়ে দিয়েছে। এসবের মধ্যে কলেজ পর্যায়ের পরীক্ষা থেকে শুরু করে নৈতিকতা, বিজ্ঞান-প্রযুক্তি, আইনের মতো নানা বিষয় রয়েছে।

বিশেষ করে ছবি বিশ্লেষণের ৯টি, ভিডিও বোঝার ৬টি, ৫টি অডিও ও অনুবাদবিষয়ক মানদণ্ড এবং ১০টি টেক্সট ও যৌক্তিকতা বোঝার মানদণ্ডে সফলভাবে উতরে গেছে গুগলের এই কৃত্রিম বুদ্ধিমত্তা মডেলগুলো। টেক্সট ও যৌক্তিকতা বোঝার দুটি পরীক্ষায় অবশ্য জিপিটি-৪-এর কাছে হেরেছে জেমিনি আল্ট্রা।

একাধিক ধরনের কন্টেন্ট বিশ্লেষণ করতে পারে, এমন মডেল তৈরির কাজটি বেশ কঠিন। কারণ, সে ক্ষেত্রে প্রশিক্ষণের জন্য নানা ধরনের ডেটা সরবরাহ করতে হয় এআইকে। পাশাপাশি ডেটার পরিমাণও হয় বিপুল। কর্মদক্ষতা তাই কমে যায়। বিভিন্ন ধরনের ভুল শুধরে নেওয়ার কাজ করতে গিয়ে দেখা যায়, এআই আর খুব একটা উন্নতি করতে পারছে না। এ সময় কৃত্রিম বুদ্ধিমত্তা মডেলগুলো ‘ওভারফিট’ বৈশিষ্ট্য দেখায়। অর্থাৎ যে সব ডেটা দিয়ে প্রশিক্ষণ দেওয়া হয়েছে, সেগুলোতে ভালো ফলাফল দেয়। কিন্তু নতুন ধরনের ডেটা বা নির্দেশ দেওয়া হলে আর সেসব কাজ সম্পন্ন করতে পারে না।

জেমিনির লোগো

আরেকটি বিষয় হলো, বহুমূখী বা মাল্টিমোডাল প্রশিক্ষণে সাধারণত একেক সময় একেক ধরনের কন্টেন্ট দিয়ে কৃত্রিম বুদ্ধিমত্তাকে প্রশিক্ষণ দেওয়া হয়। এরপর সবকিছুর সমন্বয়ে পূর্ণাঙ্গ করে তোলা হয় মডেলটিকে। জেমিনির ক্ষেত্রে এমন কিছু করা হয়নি। নানা ধরনের কন্টেন্ট একসঙ্গে সরবরাহ করা হয়েছে ট্রেইনিং ডেটাসেট, অর্থাৎ প্রশিক্ষণের জন্য সরবরাহ করা ডেটায়। এসব ডেটা সংগ্রহের জন্য ওয়েব ডকুমেন্ট, বিভিন্ন বই ও কোড ব্যবহার করেছেন গুগল ডিপমাইন্ডের বিজ্ঞানীরা। তবে এই প্রশিক্ষণ দেওয়া হয়েছে মানুষের তত্ত্বাবধানে। অর্থাৎ সুপারভাইজড লার্নিং মডেল—এ ক্ষেত্রে একজন মানুষ বলে দেন, এআই মডেলটি কোথায় ভুল করছে ও কীভাবে শুধরে নিতে হবে—অনুসরণ করা হয়েছে এ ক্ষেত্রে।

আরও পড়ুন

চ্যাটজিপিটি সব জানে!

০৩ মে ২০২৩

এই প্রশিক্ষণের জন্য একদম উঠেপড়েই লেগেছিল গুগল। নিজেদের একাধিক ডেটা সেন্টারজুড়ে বিস্তৃত অনেক বড় পরিসরের এই কাজে তারা ব্যবহার করেছে বিখ্যাত টেনসর প্রসেসিং ইউনিট বা টিপিইউ। এ ধরনের কয়েক হাজার টিপিউ—যাকে অনেকে এআই এক্সিলারেটর চিপও বলছেন—ব্যবহার করা হয়েছে জেমিনি মডেলকে প্রশিক্ষণ দিতে। নাম শুনেই বোঝা যায় এই চিপের কাজ কী— কৃত্রিম বুদ্ধিমত্তার কাজ আরও গতিশীল করা। গুগলও তাই জানিয়েছে। তাদের কৃত্রিম বুদ্ধিমত্তা গবেষণা বিভাগ—গুগল ডিপমাইন্ড এই চিপ তৈরি করেছে মূলত কৃত্রিম বুদ্ধিমত্তার প্রশিক্ষণ আরও গতিশীল করতে, এমনটাই জানিয়েছে গুগল। শুধু তাই নয়, জেমিনিকে শেখাতে ডিপমাইন্ড ‘সুপারপড’ নামের ৪০৯৬টি চিপসের একটি ক্লাস্টার তৈরি করেছিল। ফলে, আগের চেয়ে অনেক কম সময়ে জেমিনিকে প্রশিক্ষণ দেওয়া গেছে।

তবে এটি এখনো পুরোপুরি ত্রুটিমুক্ত কৃত্রিম বুদ্ধিমত্তা নয়। এখনও এটি মাঝেমধ্যে শতভাগ আত্মবিশ্বাসের সঙ্গে ভুল তথ্য দেয়। অর্থাৎ এই ভুল তথ্যকেই সঠিক বলে মনে করে

ডিপমাইন্ডের বিজ্ঞানীরা জেমিনি এআই মডেল এমনভাবে তৈরি করেছেন, যেন তাৎক্ষণিক প্রয়োজনেও ব্যবহার করা যায়। যেমন ধরুন, আপনি খাবার রান্না করছেন। এমন সময় জেমিনিকে একটা ছবি দিয়ে বললেন, পরের ধাপে কী করতে হবে, তা জানাতে। জেমিনি তাৎক্ষণিক এই নির্দেশ পালন করতে পারবে।

তবে এটি এখনো পুরোপুরি ত্রুটিমুক্ত কৃত্রিম বুদ্ধিমত্তা নয়। এখনও এটি মাঝেমধ্যে শতভাগ আত্মবিশ্বাসের সঙ্গে ভুল তথ্য দেয়। অর্থাৎ এই ভুল তথ্যকেই সঠিক বলে মনে করে। এটাকে বলা হয় ‘হ্যালুসিনেশন’। নামটা যে যথার্থ, তা আর বলতে! যাহোক, এটাই জেমিনিস সবচেয়ে বড় ত্রুটি। প্রশিক্ষণের জন্য সরবরাহ করা ডেটায় বায়াস (পক্ষপাত) বা নানা ধরনের সীমাবদ্ধতার কারণে এমনটা হয়। এ ধরনের ত্রুটি সারিয়ে তোলা কঠিন।

তবু বর্তমান সময়ের অন্যতম অগ্রগামী এআই মডেল হয়ে উঠেছে জেমিনি। গুগলের সার্ভিসের সঙ্গে যুক্ত থাকায় এটা ব্যবহারকারীদের নানাভাবে সাহায্য করতে পারবে। চ্যাটজিপিটিকে বিভিন্ন মানদণ্ডে হারিয়ে দিলেও একদম ছাপিয়ে গেছে, এমনটা এখনই বলা যাচ্ছে না। তবে ভবিষ্যতে জেমিনি কৃত্রিম বুদ্ধিমত্তার জগতে নতুন বিল্পব আনবে, তা বুঝতে রকেট বিজ্ঞানী হওয়ার প্রয়োজন নেই।

লেখক: প্রদায়ক, বিজ্ঞানচিন্তা

সূত্র: লাইভ সায়েন্স, গুগল ব্লগ পোস্ট

প্রযুক্তি থেকে আরও পড়ুন