এআই প্রায় অর্ধেক সময় ভুল স্বাস্থ্য পরামর্শ দেয়, নতুন গবেষণা

লেখা:

অনিক রায়

এআই চ্যাটবটের দেয়া স্বাস্থ্য পরামর্শ কি সবসময় সঠিক হয়?ছবি: ডেভিড এসপেজো/আইস্টক/গেটি ইমেজ

হঠাৎ আপনি জানতে পারলেন, আপনার ক্যানসার হয়েছে। তবে ক্যানসার একদম প্রাথমিক পর্যায়ে আছে। ডাক্তারের কাছে যাওয়ার আগে আপনি একটি এআই চ্যাটবটকে জিজ্ঞেস করলেন, কোন বিকল্প ক্লিনিকগুলো ক্যানসারের সফল চিকিৎসা করতে পারে?

কয়েক সেকেন্ডের মধ্যেই চ্যাটবটটি আপনাকে সুন্দরভাবে সাজিয়ে সূত্রসহ এমন একটি উত্তর দিল। সেই উত্তর পড়ে আপনার মনে হবে, কোনো অভিজ্ঞ ডাক্তার এটি লিখেছেন। কিন্তু সমস্যা হলো, এর ভেতরের কিছু দাবির কোনো ভিত্তি নেই, সূত্রগুলোরও নেই কোনো অস্তিত্ব। চ্যাটবটটি একবারও আপনাকে বলেনি, আপনার করা প্রশ্নটাই হয়তো ভুল ছিল।

গবেষকেরা চ্যাটজিপিটি, জেমিনি, গ্রোক, মেটা এআই এবং ডিপসিক—এই পাঁচটি চ্যাটবটকে ৫০টি করে স্বাস্থ্য ও চিকিৎসাবিষয়ক প্রশ্ন করেছিলেন

ছবি: স্মার্টার টেকনোলজি

এটি কোনো কাল্পনিক ঘটনা নয়। সাতজন গবেষকের একটি দল বিশ্বের সবচেয়ে জনপ্রিয় পাঁচটি চ্যাটবটকে স্বাস্থ্যবিষয়ক প্রশ্নের মাধ্যমে পরীক্ষা করে ঠিক এমনটাই দেখতে পেয়েছেন। তাঁদের এই গবেষণার ফলাফল প্রকাশিত হয়েছে বিএমজে ওপেন জার্নালে।

গবেষকেরা চ্যাটজিপিটি, জেমিনি, গ্রোক, মেটা এআই এবং ডিপসিক—এই পাঁচটি চ্যাটবটকে ক্যানসার, টিকা, স্টেম সেল, পুষ্টি এবং খেলাধুলার পারফরম্যান্স নিয়ে ৫০টি করে স্বাস্থ্য ও চিকিৎসাবিষয়ক প্রশ্ন করেছিলেন।

আরও পড়ুন

এআই হাইপ, ভবিষ্যদ্বাণী ও অদৃশ্য প্রতারণার রাজনীতি

৩১ মার্চ ২০২৬

গবেষকেরা যখন চ্যাটবটগুলোকে এমন প্রশ্ন করেন যেগুলোর উত্তর বিস্তারিতভাবে দিতে হয়, তখন পরিস্থিতি সবচেয়ে খারাপ হয়। এ ধরনের প্রশ্নের ৩২ শতাংশ উত্তরই ছিল ভুল।

প্রতিটি উত্তর দুজন বিশেষজ্ঞ আলাদাভাবে যাচাই করেন। তাঁরা দেখেন, চ্যাটবটগুলোর দেওয়া উত্তরের প্রায় ২০ শতাংশই ভুল, অর্ধেক উত্তরে অনেক সমস্যা আছে এবং ৩০ শতাংশ উত্তরে সমস্যা ছিল সামান্য। কোনো চ্যাটবটই পুরোপুরি সঠিক সূত্রের তালিকা দিতে পারেনি। আর ২৫০টি প্রশ্নের মধ্যে তারা মাত্র দুটিতে উত্তর দিতে সরাসরি অস্বীকৃতি জানিয়েছে।

সব মিলিয়ে পাঁচটি চ্যাটবটের পারফরম্যান্স প্রায় একই রকম ছিল। এর মধ্যে সবচেয়ে খারাপ করেছে গ্রোক। এর চ্যাটবটের ৫৮ শতাংশ উত্তরই ছিল সমস্যাযুক্ত। এরপর চ্যাটজিপিটির ৫২ শতাংশ এবং মেটা এআইয়ের ৫০ শতাংশ উত্তরে সমস্যা ছিল।

গবেষকেরা যখন চ্যাটবটগুলোকে এমন প্রশ্ন করেন যেগুলোর উত্তর বিস্তারিতভাবে দিতে হয়, তখন পরিস্থিতি সবচেয়ে খারাপ হয়

ছবি: সুপাপিক মেথাসেট/শাটারস্টক ডটকম

অবশ্য বিষয়ের ওপর ভিত্তি করে এদের পারফরম্যান্স আলাদা ছিল। টিকা এবং ক্যানসারের মতো বিষয়গুলোতে চ্যাটবটগুলো তুলনামূলক ভালো করেছে। তারপরও এসব ক্ষেত্রে তাদের দেওয়া প্রায় চার ভাগের এক ভাগ উত্তর ছিল সমস্যাযুক্ত।

সবচেয়ে বেশি হোঁচট খেয়েছে পুষ্টি এবং খেলাধুলার পারফরম্যান্স নিয়ে করা প্রশ্নগুলোতে। কারণ ইন্টারনেটে এসব বিষয়ে অনেক বিভ্রান্তিকর ও সাংঘর্ষিক তথ্য রয়েছে এবং নিখুঁত প্রমাণের অভাব রয়েছে। গবেষকেরা যখন চ্যাটবটগুলোকে এমন প্রশ্ন করেন যেগুলোর উত্তর বিস্তারিতভাবে দিতে হয়, তখন পরিস্থিতি সবচেয়ে খারাপ হয়। এ ধরনের প্রশ্নের ৩২ শতাংশ উত্তরই ছিল ভুল। অন্যদিকে, হ্যাঁ বা না উত্তরের ক্ষেত্রে ভুলের হার ছিল মাত্র ৭ শতাংশ।

আরও পড়ুন

সৃজনশীলতায় মানুষকে ছাড়িয়ে গেল এআই!

০১ ফেব্রুয়ারি ২০২৬

পাঁচটি চ্যাটবটের মধ্যে সবচেয়ে খারাপ করেছে গ্রোক। এর চ্যাটবটের ৫৮ শতাংশ উত্তরই ছিল সমস্যাযুক্ত। এরপর চ্যাটজিপিটির ৫২ শতাংশ এবং মেটা এআইয়ের ৫০ শতাংশ উত্তরে সমস্যা ছিল।

এই পার্থক্যটা খুবই গুরুত্বপূর্ণ। কারণ বাস্তব জীবনে মানুষ স্বাস্থ্য নিয়ে বিস্তারিত প্রশ্নই বেশি করে। তারা চ্যাটবটকে সত্য নাকি মিথ্যা ধরনের প্রশ্ন করে না। তারা জানতে চায়, সুস্বাস্থ্যের জন্য কোন সাপ্লিমেন্টগুলো সবচেয়ে ভালো? এ ধরনের প্রশ্ন করলেই চ্যাটবটগুলো খুব আত্মবিশ্বাসের সঙ্গে সুন্দর করে এমন উত্তর দেয়, যা অনেক সময় ক্ষতিকর হতে পারে।

গবেষকেরা যখন প্রতিটি চ্যাটবটের কাছে দশটি বৈজ্ঞানিক সূত্র জানতে চান, তখন তাদের দেওয়া তথ্যের সম্পূর্ণতার গড় ছিল মাত্র ৪০ শতাংশ। ২৫ বারের চেষ্টায় কোনো চ্যাটবটই একবারও পুরোপুরি নির্ভুল সূত্রের তালিকা দিতে পারেনি। চ্যাটবটগুলো লেখকের নাম ভুল দিয়েছে, কাজ করে না এমন লিংক দিয়েছে, এমনকি পুরোপুরি বানোয়াট গবেষণাপত্রের নাম দিয়েছে। বাস্তবে এমন কোনো গবেষণাপত্র কোনো দিন প্রকাশিতই হয়নি।

কৃত্রিম বুদ্ধিমত্তার এই ভুল উত্তর দেওয়া খুব বিপজ্জনক। কারণ সূত্র দেখলে সেগুলোকে প্রমাণ হিসেবে মনে হয়। সুন্দর করে সাজানো সূত্রের তালিকা দেখলে সাধারণ পাঠকদের সেই তথ্যের ওপর সন্দেহ করার কোনো কারণই থাকে না।

আরও পড়ুন

এআই কি কখনো মানুষের চেয়ে বেশি সৃজনশীল হতে পারবে

২০ জানুয়ারি ২০২৬

গবেষকেরা যখন প্রতিটি চ্যাটবটের কাছে দশটি বৈজ্ঞানিক সূত্র জানতে চান, তখন তাদের দেওয়া তথ্যের সম্পূর্ণতার গড় ছিল মাত্র ৪০ শতাংশ।

চ্যাটবট কেন ভুল উত্তর দেয়

চ্যাটবটগুলো চিকিৎসাবিষয়ক উত্তর ভুল দেওয়ার পেছনে একটি সহজ কারণ আছে। এআই ভাষার মডেলগুলো নিজেরা কিছুই জানে না। তারা শুধু তাদের প্রশিক্ষণ ডেটা এবং প্রসঙ্গের ওপর ভিত্তি করে হিসাব কষে বের করে, এরপর কোন শব্দটি বসার সম্ভাবনা সবচেয়ে বেশি। তারা কোনো প্রমাণ বিচার করে না বা ভালো-মন্দের পার্থক্যও বোঝে না।

তাদের প্রশিক্ষণের উপাদানের মধ্যে যেমন বিজ্ঞানীদের দ্বারা যাচাই করা গবেষণাপত্র থাকে, তেমনি রেডিটের আলোচনা, ওয়েলনেস ব্লগ এবং সোশ্যাল মিডিয়ার নানা তর্ক-বিতর্কও যুক্ত থাকে।

রেড টিমিং এআইয়ের দুর্বলতা পরীক্ষার একটি সাধারণ কৌশল

ছবি: ইনডিয়াম সফটওয়্যার

গবেষকেরা চ্যাটবটগুলোকে কোনো সাধারণ বা নিরপেক্ষ প্রশ্ন করেননি। তাঁরা ইচ্ছে করেই এমনভাবে প্রশ্নগুলো সাজিয়েছিলেন, যেন চ্যাটবটগুলো বিভ্রান্তিকর উত্তর দিতে বাধ্য হয়। এআই নিরাপত্তার গবেষণায় একে রেড টিমিং বলা হয়। এটি এআইয়ের দুর্বলতা পরীক্ষার একটি সাধারণ কৌশল।

এর মানে হলো, আপনি যদি সাধারণভাবে প্রশ্ন করেন, তবে হয়তো এত বেশি ভুল উত্তর পাবেন না। গবেষণায় চ্যাটবটগুলোর ফ্রি সংস্করণ ব্যবহার করা হয়েছিল, যা ২০২৫ সালের ফেব্রুয়ারিতে পাওয়া যেত। এদের পেইড বা নতুন সংস্করণগুলো হয়তো এর চেয়ে ভালো ফলাফল দিতে পারে।

তবুও, বেশির ভাগ মানুষ এই ফ্রি সংস্করণগুলোই ব্যবহার করেন এবং তারা স্বাস্থ্য নিয়ে করা প্রশ্নগুলো খুব সাবধানে সাজিয়ে করেন না। সাধারণ মানুষ যেভাবে এই টুলগুলো ব্যবহার করে, তারই একটি বাস্তব চিত্র তুলে ধরা হয়েছে এই গবেষণার মাধ্যমে।

আরও পড়ুন

এআই কেন এআইয়ের লেখা ধরতে পারে না

০৭ জানুয়ারি ২০২৬

গবেষকেরা ইচ্ছে করেই এমনভাবে প্রশ্নগুলো সাজিয়েছিলেন, যেন চ্যাটবটগুলো বিভ্রান্তিকর উত্তর দিতে বাধ্য হয়। এআই নিরাপত্তার গবেষণায় একে রেড টিমিং বলা হয়।

এই প্রবন্ধের ফলাফলগুলো কোনো বিচ্ছিন্ন ঘটনা নয়; বরং এটি এমন অনেক গবেষণার অংশ, যা একই ধরনের চিত্র তুলে ধরছে। ২০২৬ সালের ফেব্রুয়ারিতে নেচার মেডিসিন জার্নালে প্রকাশিত একটি গবেষণায় অবাক করার মতো একটি তথ্য পাওয়া যায়। দেখা যায়, চ্যাটবটগুলো নিজে থেকে প্রায় ৯৫ শতাংশ সময় সঠিক চিকিৎসাবিষয়ক উত্তর দিতে পারে। কিন্তু সাধারণ মানুষ যখন একই চ্যাটবট ব্যবহার করেন, তখন তাঁরা ৩৫ শতাংশেরও কম সময় সঠিক উত্তর পান। সহজ কথায়, সমস্যা শুধু চ্যাটবট সঠিক উত্তর দিচ্ছে কি না তা নয়, বরং সাধারণ ব্যবহারকারীরা সেই উত্তর বুঝতে এবং সঠিকভাবে ব্যবহার করতে পারছেন কি না, সেটাই আসল বিষয়।

সাধারণ মানুষ যখন একই চ্যাটবট ব্যবহার করেন, তখন তাঁরা ৩৫ শতাংশেরও কম সময় সঠিক উত্তর পান

ছবি: পিক্সেলশট/ক্যানভা

জামা নেটওয়ার্ক ওপেন নামে পিয়ার-রিভিউড এবং ওপেন-অ্যাক্সেস মেডিকেল জার্নালে প্রকাশিত সম্প্রতি আরেকটি গবেষণায় ২১টি শীর্ষস্থানীয় এআই মডেল পরীক্ষা করা হয়। গবেষকেরা তাদের সম্ভাব্য রোগ নির্ণয় করতে বলেছিলেন। যখন মডেলগুলোকে শুধু রোগীর বয়স, লিঙ্গ এবং উপসর্গের মতো প্রাথমিক তথ্য দেওয়া হয়, তখন তারা ৮০ শতাংশেরও বেশি সময় সঠিক রোগটি চিহ্নিত করতে ব্যর্থ হয়। কিন্তু গবেষকেরা যখন ডাক্তারি পরীক্ষা এবং ল্যাবের ফলাফলগুলো তাদের দেন, তখন তাদের নির্ভুলতা ৯০ শতাংশের ওপরে চলে যায়।

এদিকে, নেচার কমিউনিকেশনস মেডিসিন-এ প্রকাশিত যুক্তরাষ্ট্রের আরেকটি গবেষণায় দেখা গেছে, প্রশ্নের মধ্যে যদি বানোয়াট চিকিৎসাবিষয়ক শব্দ ঢুকিয়ে দেওয়া হয়, তবে চ্যাটবটগুলো অনায়াসেই সেই শব্দগুলো পুনরাবৃত্তি করে এবং সেগুলো নিয়ে বিস্তারিত আলোচনাও শুরু করে দেয়।

সব মিলিয়ে এই গবেষণাগুলো এটাই প্রমাণ করে যে, বিএমজে ওপেন গবেষণায় পাওয়া দুর্বলতাগুলো কোনো নির্দিষ্ট পরীক্ষা পদ্ধতির ত্রুটি নয়, বরং বর্তমান এআই প্রযুক্তি ঠিক কোন পর্যায়ে দাঁড়িয়ে আছে, এটি তারই একটি মৌলিক প্রতিফলন।

আরও পড়ুন

এআই কি মানুষের বলা মিথ্যা ধরতে পারবে

০২ ডিসেম্বর ২০২৫

যখন মডেলগুলোকে শুধু রোগীর বয়স, লিঙ্গ এবং উপসর্গের মতো প্রাথমিক তথ্য দেওয়া হয়, তখন তারা ৮০ শতাংশেরও বেশি সময় সঠিক রোগটি চিহ্নিত করতে ব্যর্থ হয়।

এই চ্যাটবটগুলো কোথাও হারিয়ে যাচ্ছে না, তাদের হারিয়ে যাওয়া উচিতও নয়। তারা জটিল বিষয়গুলোকে সহজে সারসংক্ষেপ করতে পারে, ডাক্তারের কাছে যাওয়ার আগে প্রশ্ন প্রস্তুত করতে সাহায্য করতে পারে এবং গবেষণার শুরুর ধাপ হিসেবেও কাজ করতে পারে। কিন্তু এই গবেষণাটি স্পষ্টভাবে প্রমাণ করে, চ্যাটবটগুলোকে কখনোই একক বা স্বয়ংসম্পূর্ণ চিকিৎসাবিষয়ক কর্তৃপক্ষ হিসেবে মেনে নেওয়া উচিত নয়।

চ্যাটবটগুলোকে কখনোই স্বয়ংসম্পূর্ণ চিকিৎসাবিষয়ক কর্তৃপক্ষ হিসেবে মেনে নেওয়া উচিত নয়

ছবি: মিডজার্নির সাহায্যে তৈরি

আপনি যদি চিকিৎসাবিষয়ক পরামর্শের জন্য এই চ্যাটবটগুলো ব্যবহার করেনই, তবে এর দেওয়া যেকোনো স্বাস্থ্যবিষয়ক দাবি যাচাই করে নিন। এর তথ্যসূত্রগুলোকে ধ্রুব সত্য হিসেবে না ধরে যাচাই করার পরামর্শ হিসেবে নিন।

লেখক: ফ্রন্টেন্ড ডেভলপার, সফটভেঞ্চ

সূত্র: সায়েন্স অ্যালার্ট

আরও পড়ুন

সবাই কেন এআই পছন্দ করে না

১৯ নভেম্বর ২০২৫

প্রযুক্তি থেকে আরও পড়ুন