এআই প্রায় অর্ধেক সময় ভুল স্বাস্থ্য পরামর্শ দেয়, নতুন গবেষণা
হঠাৎ আপনি জানতে পারলেন, আপনার ক্যানসার হয়েছে। তবে ক্যানসার একদম প্রাথমিক পর্যায়ে আছে। ডাক্তারের কাছে যাওয়ার আগে আপনি একটি এআই চ্যাটবটকে জিজ্ঞেস করলেন, কোন বিকল্প ক্লিনিকগুলো ক্যানসারের সফল চিকিৎসা করতে পারে?
কয়েক সেকেন্ডের মধ্যেই চ্যাটবটটি আপনাকে সুন্দরভাবে সাজিয়ে সূত্রসহ এমন একটি উত্তর দিল। সেই উত্তর পড়ে আপনার মনে হবে, কোনো অভিজ্ঞ ডাক্তার এটি লিখেছেন। কিন্তু সমস্যা হলো, এর ভেতরের কিছু দাবির কোনো ভিত্তি নেই, সূত্রগুলোরও নেই কোনো অস্তিত্ব। চ্যাটবটটি একবারও আপনাকে বলেনি, আপনার করা প্রশ্নটাই হয়তো ভুল ছিল।
এটি কোনো কাল্পনিক ঘটনা নয়। সাতজন গবেষকের একটি দল বিশ্বের সবচেয়ে জনপ্রিয় পাঁচটি চ্যাটবটকে স্বাস্থ্যবিষয়ক প্রশ্নের মাধ্যমে পরীক্ষা করে ঠিক এমনটাই দেখতে পেয়েছেন। তাঁদের এই গবেষণার ফলাফল প্রকাশিত হয়েছে বিএমজে ওপেন জার্নালে।
গবেষকেরা চ্যাটজিপিটি, জেমিনি, গ্রোক, মেটা এআই এবং ডিপসিক—এই পাঁচটি চ্যাটবটকে ক্যানসার, টিকা, স্টেম সেল, পুষ্টি এবং খেলাধুলার পারফরম্যান্স নিয়ে ৫০টি করে স্বাস্থ্য ও চিকিৎসাবিষয়ক প্রশ্ন করেছিলেন।
গবেষকেরা যখন চ্যাটবটগুলোকে এমন প্রশ্ন করেন যেগুলোর উত্তর বিস্তারিতভাবে দিতে হয়, তখন পরিস্থিতি সবচেয়ে খারাপ হয়। এ ধরনের প্রশ্নের ৩২ শতাংশ উত্তরই ছিল ভুল।
প্রতিটি উত্তর দুজন বিশেষজ্ঞ আলাদাভাবে যাচাই করেন। তাঁরা দেখেন, চ্যাটবটগুলোর দেওয়া উত্তরের প্রায় ২০ শতাংশই ভুল, অর্ধেক উত্তরে অনেক সমস্যা আছে এবং ৩০ শতাংশ উত্তরে সমস্যা ছিল সামান্য। কোনো চ্যাটবটই পুরোপুরি সঠিক সূত্রের তালিকা দিতে পারেনি। আর ২৫০টি প্রশ্নের মধ্যে তারা মাত্র দুটিতে উত্তর দিতে সরাসরি অস্বীকৃতি জানিয়েছে।
সব মিলিয়ে পাঁচটি চ্যাটবটের পারফরম্যান্স প্রায় একই রকম ছিল। এর মধ্যে সবচেয়ে খারাপ করেছে গ্রোক। এর চ্যাটবটের ৫৮ শতাংশ উত্তরই ছিল সমস্যাযুক্ত। এরপর চ্যাটজিপিটির ৫২ শতাংশ এবং মেটা এআইয়ের ৫০ শতাংশ উত্তরে সমস্যা ছিল।
অবশ্য বিষয়ের ওপর ভিত্তি করে এদের পারফরম্যান্স আলাদা ছিল। টিকা এবং ক্যানসারের মতো বিষয়গুলোতে চ্যাটবটগুলো তুলনামূলক ভালো করেছে। তারপরও এসব ক্ষেত্রে তাদের দেওয়া প্রায় চার ভাগের এক ভাগ উত্তর ছিল সমস্যাযুক্ত।
সবচেয়ে বেশি হোঁচট খেয়েছে পুষ্টি এবং খেলাধুলার পারফরম্যান্স নিয়ে করা প্রশ্নগুলোতে। কারণ ইন্টারনেটে এসব বিষয়ে অনেক বিভ্রান্তিকর ও সাংঘর্ষিক তথ্য রয়েছে এবং নিখুঁত প্রমাণের অভাব রয়েছে। গবেষকেরা যখন চ্যাটবটগুলোকে এমন প্রশ্ন করেন যেগুলোর উত্তর বিস্তারিতভাবে দিতে হয়, তখন পরিস্থিতি সবচেয়ে খারাপ হয়। এ ধরনের প্রশ্নের ৩২ শতাংশ উত্তরই ছিল ভুল। অন্যদিকে, হ্যাঁ বা না উত্তরের ক্ষেত্রে ভুলের হার ছিল মাত্র ৭ শতাংশ।
পাঁচটি চ্যাটবটের মধ্যে সবচেয়ে খারাপ করেছে গ্রোক। এর চ্যাটবটের ৫৮ শতাংশ উত্তরই ছিল সমস্যাযুক্ত। এরপর চ্যাটজিপিটির ৫২ শতাংশ এবং মেটা এআইয়ের ৫০ শতাংশ উত্তরে সমস্যা ছিল।
এই পার্থক্যটা খুবই গুরুত্বপূর্ণ। কারণ বাস্তব জীবনে মানুষ স্বাস্থ্য নিয়ে বিস্তারিত প্রশ্নই বেশি করে। তারা চ্যাটবটকে সত্য নাকি মিথ্যা ধরনের প্রশ্ন করে না। তারা জানতে চায়, সুস্বাস্থ্যের জন্য কোন সাপ্লিমেন্টগুলো সবচেয়ে ভালো? এ ধরনের প্রশ্ন করলেই চ্যাটবটগুলো খুব আত্মবিশ্বাসের সঙ্গে সুন্দর করে এমন উত্তর দেয়, যা অনেক সময় ক্ষতিকর হতে পারে।
গবেষকেরা যখন প্রতিটি চ্যাটবটের কাছে দশটি বৈজ্ঞানিক সূত্র জানতে চান, তখন তাদের দেওয়া তথ্যের সম্পূর্ণতার গড় ছিল মাত্র ৪০ শতাংশ। ২৫ বারের চেষ্টায় কোনো চ্যাটবটই একবারও পুরোপুরি নির্ভুল সূত্রের তালিকা দিতে পারেনি। চ্যাটবটগুলো লেখকের নাম ভুল দিয়েছে, কাজ করে না এমন লিংক দিয়েছে, এমনকি পুরোপুরি বানোয়াট গবেষণাপত্রের নাম দিয়েছে। বাস্তবে এমন কোনো গবেষণাপত্র কোনো দিন প্রকাশিতই হয়নি।
কৃত্রিম বুদ্ধিমত্তার এই ভুল উত্তর দেওয়া খুব বিপজ্জনক। কারণ সূত্র দেখলে সেগুলোকে প্রমাণ হিসেবে মনে হয়। সুন্দর করে সাজানো সূত্রের তালিকা দেখলে সাধারণ পাঠকদের সেই তথ্যের ওপর সন্দেহ করার কোনো কারণই থাকে না।
গবেষকেরা যখন প্রতিটি চ্যাটবটের কাছে দশটি বৈজ্ঞানিক সূত্র জানতে চান, তখন তাদের দেওয়া তথ্যের সম্পূর্ণতার গড় ছিল মাত্র ৪০ শতাংশ।
চ্যাটবট কেন ভুল উত্তর দেয়
চ্যাটবটগুলো চিকিৎসাবিষয়ক উত্তর ভুল দেওয়ার পেছনে একটি সহজ কারণ আছে। এআই ভাষার মডেলগুলো নিজেরা কিছুই জানে না। তারা শুধু তাদের প্রশিক্ষণ ডেটা এবং প্রসঙ্গের ওপর ভিত্তি করে হিসাব কষে বের করে, এরপর কোন শব্দটি বসার সম্ভাবনা সবচেয়ে বেশি। তারা কোনো প্রমাণ বিচার করে না বা ভালো-মন্দের পার্থক্যও বোঝে না।
তাদের প্রশিক্ষণের উপাদানের মধ্যে যেমন বিজ্ঞানীদের দ্বারা যাচাই করা গবেষণাপত্র থাকে, তেমনি রেডিটের আলোচনা, ওয়েলনেস ব্লগ এবং সোশ্যাল মিডিয়ার নানা তর্ক-বিতর্কও যুক্ত থাকে।
গবেষকেরা চ্যাটবটগুলোকে কোনো সাধারণ বা নিরপেক্ষ প্রশ্ন করেননি। তাঁরা ইচ্ছে করেই এমনভাবে প্রশ্নগুলো সাজিয়েছিলেন, যেন চ্যাটবটগুলো বিভ্রান্তিকর উত্তর দিতে বাধ্য হয়। এআই নিরাপত্তার গবেষণায় একে রেড টিমিং বলা হয়। এটি এআইয়ের দুর্বলতা পরীক্ষার একটি সাধারণ কৌশল।
এর মানে হলো, আপনি যদি সাধারণভাবে প্রশ্ন করেন, তবে হয়তো এত বেশি ভুল উত্তর পাবেন না। গবেষণায় চ্যাটবটগুলোর ফ্রি সংস্করণ ব্যবহার করা হয়েছিল, যা ২০২৫ সালের ফেব্রুয়ারিতে পাওয়া যেত। এদের পেইড বা নতুন সংস্করণগুলো হয়তো এর চেয়ে ভালো ফলাফল দিতে পারে।
তবুও, বেশির ভাগ মানুষ এই ফ্রি সংস্করণগুলোই ব্যবহার করেন এবং তারা স্বাস্থ্য নিয়ে করা প্রশ্নগুলো খুব সাবধানে সাজিয়ে করেন না। সাধারণ মানুষ যেভাবে এই টুলগুলো ব্যবহার করে, তারই একটি বাস্তব চিত্র তুলে ধরা হয়েছে এই গবেষণার মাধ্যমে।
গবেষকেরা ইচ্ছে করেই এমনভাবে প্রশ্নগুলো সাজিয়েছিলেন, যেন চ্যাটবটগুলো বিভ্রান্তিকর উত্তর দিতে বাধ্য হয়। এআই নিরাপত্তার গবেষণায় একে রেড টিমিং বলা হয়।
এই প্রবন্ধের ফলাফলগুলো কোনো বিচ্ছিন্ন ঘটনা নয়; বরং এটি এমন অনেক গবেষণার অংশ, যা একই ধরনের চিত্র তুলে ধরছে। ২০২৬ সালের ফেব্রুয়ারিতে নেচার মেডিসিন জার্নালে প্রকাশিত একটি গবেষণায় অবাক করার মতো একটি তথ্য পাওয়া যায়। দেখা যায়, চ্যাটবটগুলো নিজে থেকে প্রায় ৯৫ শতাংশ সময় সঠিক চিকিৎসাবিষয়ক উত্তর দিতে পারে। কিন্তু সাধারণ মানুষ যখন একই চ্যাটবট ব্যবহার করেন, তখন তাঁরা ৩৫ শতাংশেরও কম সময় সঠিক উত্তর পান। সহজ কথায়, সমস্যা শুধু চ্যাটবট সঠিক উত্তর দিচ্ছে কি না তা নয়, বরং সাধারণ ব্যবহারকারীরা সেই উত্তর বুঝতে এবং সঠিকভাবে ব্যবহার করতে পারছেন কি না, সেটাই আসল বিষয়।
জামা নেটওয়ার্ক ওপেন নামে পিয়ার-রিভিউড এবং ওপেন-অ্যাক্সেস মেডিকেল জার্নালে প্রকাশিত সম্প্রতি আরেকটি গবেষণায় ২১টি শীর্ষস্থানীয় এআই মডেল পরীক্ষা করা হয়। গবেষকেরা তাদের সম্ভাব্য রোগ নির্ণয় করতে বলেছিলেন। যখন মডেলগুলোকে শুধু রোগীর বয়স, লিঙ্গ এবং উপসর্গের মতো প্রাথমিক তথ্য দেওয়া হয়, তখন তারা ৮০ শতাংশেরও বেশি সময় সঠিক রোগটি চিহ্নিত করতে ব্যর্থ হয়। কিন্তু গবেষকেরা যখন ডাক্তারি পরীক্ষা এবং ল্যাবের ফলাফলগুলো তাদের দেন, তখন তাদের নির্ভুলতা ৯০ শতাংশের ওপরে চলে যায়।
এদিকে, নেচার কমিউনিকেশনস মেডিসিন-এ প্রকাশিত যুক্তরাষ্ট্রের আরেকটি গবেষণায় দেখা গেছে, প্রশ্নের মধ্যে যদি বানোয়াট চিকিৎসাবিষয়ক শব্দ ঢুকিয়ে দেওয়া হয়, তবে চ্যাটবটগুলো অনায়াসেই সেই শব্দগুলো পুনরাবৃত্তি করে এবং সেগুলো নিয়ে বিস্তারিত আলোচনাও শুরু করে দেয়।
সব মিলিয়ে এই গবেষণাগুলো এটাই প্রমাণ করে যে, বিএমজে ওপেন গবেষণায় পাওয়া দুর্বলতাগুলো কোনো নির্দিষ্ট পরীক্ষা পদ্ধতির ত্রুটি নয়, বরং বর্তমান এআই প্রযুক্তি ঠিক কোন পর্যায়ে দাঁড়িয়ে আছে, এটি তারই একটি মৌলিক প্রতিফলন।
যখন মডেলগুলোকে শুধু রোগীর বয়স, লিঙ্গ এবং উপসর্গের মতো প্রাথমিক তথ্য দেওয়া হয়, তখন তারা ৮০ শতাংশেরও বেশি সময় সঠিক রোগটি চিহ্নিত করতে ব্যর্থ হয়।
এই চ্যাটবটগুলো কোথাও হারিয়ে যাচ্ছে না, তাদের হারিয়ে যাওয়া উচিতও নয়। তারা জটিল বিষয়গুলোকে সহজে সারসংক্ষেপ করতে পারে, ডাক্তারের কাছে যাওয়ার আগে প্রশ্ন প্রস্তুত করতে সাহায্য করতে পারে এবং গবেষণার শুরুর ধাপ হিসেবেও কাজ করতে পারে। কিন্তু এই গবেষণাটি স্পষ্টভাবে প্রমাণ করে, চ্যাটবটগুলোকে কখনোই একক বা স্বয়ংসম্পূর্ণ চিকিৎসাবিষয়ক কর্তৃপক্ষ হিসেবে মেনে নেওয়া উচিত নয়।
আপনি যদি চিকিৎসাবিষয়ক পরামর্শের জন্য এই চ্যাটবটগুলো ব্যবহার করেনই, তবে এর দেওয়া যেকোনো স্বাস্থ্যবিষয়ক দাবি যাচাই করে নিন। এর তথ্যসূত্রগুলোকে ধ্রুব সত্য হিসেবে না ধরে যাচাই করার পরামর্শ হিসেবে নিন।