অসম্ভবকে সম্ভব করা এআইয়ের কাজ

মিডজার্নির মতো এআই আর্ট প্রোগ্রাম ব্যবহার করে মুহূর্তে তৈরি করা যায় অবাস্তব ধরনের বিচিত্র সব বাস্তব ছবি। পিথাগোরাসের মতো বিখ্যাত ব্যক্তির ছবি যেমন আঁকা যায়, তেমনি পেঙ্গুইনের দলকে রণসাজে সজ্জিত করে তোলা যায়। চাইলেই চাঁদের মাটিতে পুঁতে দেওয়া যায় বাংলাদেশের পতাকা। কিন্তু এসব ছবি কীভাবে তৈরি করে এআই আর্ট? আধুনিক কৃত্রিম বুদ্ধিমত্তার বিচিত্র শিল্পকর্মের নেপথ্যের কাহিনি…

লেখা:

রিফাত আহমেদ

প্রথম দেখায় আইনস্টাইনকে গভীর মনোযোগ দিয়ে ফেসবুকে কিছু একটা পড়তে দেখে তেমন বিশেষ কিছু মনে না-ও হতে পারে। তবে একটু খেয়াল করলে মনে পড়বে, আইনস্টাইনের সময়ে তো ইন্টারনেট ছিল না। তাহলে তিনি স্মার্টফোনের স্ক্রিনে এ রকম অপলক দৃষ্টিতে কী দেখছেন?

আরেকটু ভাবলে হয়তো এটাও মনে পড়বে যে আইনস্টাইনের সময়ে স্মার্টফোনও ছিল না। তাহলে লম্বা তারযুক্ত টেলিফোনের যুগে স্মার্টফোনের সঙ্গে আইনস্টাইনের এ ছবি কীভাবে এল?

এ অসম্ভব ছবি সম্ভব হয়েছে কৃত্রিম বুদ্ধিমত্তার কল্যাণে।

ছবিটি একটি হাই রেজল্যুশন সাদা-কালো ক্যামেরায় তোলা হয়েছে মনে হলেও এটা সম্পূর্ণ কম্পিউটার জেনারেটেড বা আর্টিফিশিয়াল ইন্টেলিজেন্সের তৈরি একটি ডিজিটাল আর্ট। এককথায় এটি একটি এআই (AI) আর্ট।

শুধু স্মার্টফোন নয়, আইনস্টাইনকে আধুনিক ল্যাপটপে নিজের তত্ত্ব নিয়ে রিসার্চ পেপার লেখা অবস্থায় দেখতে চাইলে আর্টিফিশিয়াল ইন্টেলিজেন্স তা-ও পারবে। কম্পিউটার আবিষ্কারের প্রায় ৭০ বছর আগে মারা যান কম্পিউটারের জনক চার্লস ব্যাবেজ। কিন্তু কৃত্রিম বুদ্ধিমত্তার সাহায্যে এই পলিম্যাথের হাতেও দেখা যাবে মডার্ন ল্যাপটপ।

কিন্তু কীভাবে সম্ভব হচ্ছে এ অসম্ভব ছবিগুলো? কম্পিউটার কি নিজ থেকে এগুলো তৈরি করছে? হ্যাঁ, অনেকটা এ রকমই।

আরও পড়ুন

আনন্দের সঙ্গে কাজ করতে পারাটাই জীবনের সবচেয়ে বড় স্বীকৃতি

২৪ সেপ্টেম্বর ২০২৪

এখন আপনি যদি গুগলে ‘আলবার্ট আইনস্টাইনের হাতে ফোন’ বা ‘একজন ব্যক্তির হাতে ফোন’—এ রকম কিছু সার্চ করেন, তবে গুগলের বট (Bot) ইন্টারনেট ঘেঁটে এই ছবি আপনার সামনে উপস্থাপন করবে।

স্মার্টফোনে ব্যস্ত আলবার্ট আইনস্টাইন

কিন্তু আইনস্টাইন বা ব্যাবেজের সময়ে তো ল্যাপটপ ছিল না। তাহলে কৃত্রিম বুদ্ধিমত্তা এ রকম বাস্তব ছবি তৈরি করছে কীভাবে? এআই আর্ট কীভাবে এ রকম ছবি জেনারেট বা তৈরি করতে পারে, তা বুঝতে হলে এই শিল্পরূপের সূচনার পেছনের ঘটনা ও উদ্দেশ্য জানতে হবে।

কম্পিউটার জেনারেটেড ছবির ধারণা বহু আগের হলেও শূন্য থেকে এ রকম এআই আর্ট তৈরির বিষয় খুব বেশি দিনের নয়। যাঁরা সার্চ ইঞ্জিন অপটিমাইজেশন, ডিজিটাল মার্কেটিং ইত্যাদি নিয়ে কাজ করেন, তাঁরা নিশ্চয়ই ইন্টারনেটের ছবির অল্ট টেক্সট (Alt Text) সম্পর্কে জানেন। ইন্টারনেটে বিভিন্ন ওয়েবসাইটে থাকা সব ছবির সঙ্গে ছবিটির বর্ণনাসংবলিত একটা বিবরণ থাকে। এটাকে ক্যাপশনও বলা হয় অনেক সময়।

স্মার্টফোন হাতে আইনস্টাইনের ছবি যদি কোনো ওয়েবসাইটে প্রকাশ করা হয়, তবে ছবিটির অল্ট টেক্সট হতে পারে ‘স্মার্টফোন হাতে আলবার্ট আইনস্টাইন’ বা ‘ফোন হাতে একজন ব্যক্তি’।

এখন আপনি যদি গুগলে ‘আলবার্ট আইনস্টাইনের হাতে ফোন’ বা ‘একজন ব্যক্তির হাতে ফোন’—এ রকম কিছু সার্চ করেন, তবে গুগলের বট (Bot) ইন্টারনেট ঘেঁটে এই ছবি আপনার সামনে উপস্থাপন করবে। কেননা ওয়েবসাইটের মালিক অল্ট টেক্সট বা ক্যাপশনে বলে দিয়েছেন, এ ছবিতে এক ব্যক্তি আছেন, যাঁর নাম আলবার্ট আইনস্টাইন। তাঁর হাতে আছে একটা ফোন।

গুগল শুধু অল্ট টেক্সটের ওপর নির্ভরশীল নয়। মেশিন লার্নিংয়ের মাধ্যমে গুগল নিজে বুঝতে পারে, একটি ছবিতে কী আছে। এটার প্রয়োগ দেখার জন্য আপনার হাতে থাকা স্মার্টফোনই যথেষ্ট।

আরও পড়ুন

কম্পিউটারের মাউস একদিনে কতটা পথ ভ্রমণ করে

১১ সেপ্টেম্বর ২০২৪

আপনার ফোনের ক্যামেরা ওপেন করে সামনে থাকা একটি কলম, পানির বোতল, ফুল বা যেকোনো কিছুর ছবি তুলে ফেলুন। তারপর গুগল ফটোজ অ্যাপ ব্যবহার করে ছবিটি ওপেন করলে গুগল লেন্সের আইকনে দেখতে পাবেন। গুগল লেন্স আইকনে ক্লিক করলে গুগল ছবিটি স্ক্যান করে ছবিতে থাকা সবকিছুর বর্ণনা আপনাকে দিয়ে দেবে। কলমের ছবি তুললে গুগল আপনাকে জানিয়ে দেবে, এটি একটি কলমের ছবি। পাশাপাশি আরও অনেক কলমের ছবি বা অনলাইন লিংক আপনার স্ক্রিনে তুলে ধরবে।

যদি একটি ফুলের ছবি তোলেন, তাহলে গুগল বলে দেবে ছবিটিতে একটি ফুল রয়েছে। ছবিটি যদি স্পষ্ট হয়, তবে তা কোন প্রজাতির, এর বৈজ্ঞানিক নামসহ আরও অনেক তথ্য জানিয়ে দেবে গুগল। মূলত কম্পিউটার বা প্রোগ্রামের ছবির বর্ণনা করার এই কর্মদক্ষতা থেকে এআই আর্টের জন্ম।

বাবেলিয়া 6322466584437036

বিভিন্ন প্রোগ্রামের অটোমেটেড ইমেজ ক্যাপশনিংয়ে এ রকম সফলতা দেখে ২০১৫ সালে প্রকৌশলী ও গবেষকদের মাথায় একটা চিন্তা এল। কম্পিউটার প্রোগ্রাম বা অ্যালগরিদম যদি ইনপুট হিসেবে ছবি নিয়ে ছবিতে থাকা জিনিসের বর্ণনা আউটপুট হিসেবে দিতে পারে, তবে এর ঠিক উল্টো, অর্থাৎ জিনিসের বর্ণনা থেকে আউটপুট হিসেবে ছবি দিতে কেন পারবে না? এই চিন্তা থেকে কৃত্রিম বুদ্ধিমত্তা ব্যবহার করে ছবি তৈরি করার প্রতিযোগিতা শুরু।

যাঁরা এত দিন অটোমেটেড ক্যাপশনিং নিয়ে কাজ করছিলেন, তাঁরা এই প্রসেসের রিভার্স অ্যাপ্লিকেশন নিয়ে ভাবতে লাগলেন। জন্ম হলো ডাল.ই, স্ট্যাবল ডিফিউশন ও মিডজার্নির মতো ‘ইমেজিনেশন প্রোগ্রাম’-এর।

এ প্রোগ্রামগুলোতে যে রকম ছবির বর্ণনা দেবেন, ঠিক সে রকম ছবিই তৈরি করে দেবে প্রোগ্রামগুলোর এআই ইঞ্জিন। ইনপুট হিসেবে দেওয়া এই ছবির বর্ণনাকে বলা হয় প্রম্পট টেক্সট বা প্রম্পট (Prompt)।

২০২১ সালে ওপেন এআইয়ের ‘ডাল.ই’ প্রথম আধুনিক প্রম্পট টেক্সট টু এআই জেনারেটর। পরে ‘ডাল.ই ২’ ও ওপেন সোর্স প্রোগ্রাম ‘স্ট্যাবল ডিফউশন’ এ ক্ষেত্রে আরও অগ্রগতি আনে। প্রোগ্রাম জেনারেটেড ছবিগুলো হয়ে উঠতে থাকে আরও প্রাণবন্ত ও বাস্তবধর্মী। তবে প্রম্পটের বর্ণনা থেকে এ রকম প্রোগ্রামগুলোর মধ্যে সবচেয়ে অ্যাকুরেট ও রিয়েলিস্টিক ছবি তৈরি করতে পারে ২০২২ সালের জুলাইয়ে রিলিজ হওয়া মিডজার্নি নামক এআই প্রোগ্রাম। ডাল.ই ২, স্ট্যাবল ডিফিউশন এবং মিডজার্নি—এসব প্রোগ্রাম প্রায় একইভাবে কাজ করে।

আরও পড়ুন

ল্যাপটপের বিকিরণ কি ক্ষতিকর

০৪ সেপ্টেম্বর ২০২৪

ত্রিমাত্রিক বস্তুর ক্ষেত্রে তার অবস্থান প্রকাশ করা হবে ত্রিমাত্রিক স্থানে, সাংকেতিকভাবে যাকে (x, y, z) রূপে প্রকাশ করা যায়। আমাদের বাস্তব জীবনের প্রায় সবকিছু দ্বিমাত্রিক ও ত্রিমাত্রিক। তাই আমরা দ্বিমাত্রিক ও ত্রিমাত্রিক স্থান ভালোভাবে বুঝি।

বাইক চালাচ্ছেন পিথাগোরাস

এই এআই মডেলগুলো নিউরাল নেটওয়ার্ক ব্যবহার করে প্রম্পট টেক্সট থেকে বর্ণনা অনুযায়ী ছবি তৈরি করে। এর জন্য প্রথমে এই মডেলগুলোকে ফিড (feed) করা হয় বিশালাকার ট্রেনিং ডেটা সেট, যাতে থাকে বিভিন্ন রকম ছবি ও ছবিসংশ্লিষ্ট বর্ণনা। ইন্টারনেটে থাকা অগণিত ছবি ও তাদের অল্ট টেক্সট নিয়ে তৈরি করা হয় এই ডেটা সেট। মেশিন লার্নিং অ্যালগরিদমও ব্যবহার করা হয় এই প্রোগ্রামকে যেকোনো দুটি জিনিসের (যেমন একটা কলম ও একটা ফুল) মধ্যকার পার্থক্য শেখাতে। পার্থক্য শিখে গেলে ইমেজ স্পেসে আউটপুট দিয়ে কাঙ্ক্ষিত ছবি তৈরি করে এই মডেলগুলো।

মূলত এই মডেলগুলো হলো ইমেজ স্পেস এক্সপ্লোর করার একটি টুল। এআই আর্ট তৈরির প্রক্রিয়া সম্পর্কে আরও বিস্তারিত জানতে চাইলে এই ইমেজ স্পেস নিয়ে স্পষ্ট ধারণা থাকতে হবে।

বিজ্ঞান বিভাগের শিক্ষার্থীদের নিশ্চয়ই দ্বিমাত্রিক স্থানাঙ্ক সম্পর্কে ধারণা আছে। (২, -৩) বিন্দুটির অবস্থান X-অক্ষে দুই ঘর ধনাত্মক দিকে ও Y-অক্ষে তিন ঘর ঋণাত্মক দিকে। দ্বিমাত্রিক ব্যবস্থায় এভাবে যেকোনো বিন্দুর অবস্থান বের করা যায় ওই বিন্দুর স্থানাঙ্ক ব্যবহার করে। ত্রিমাত্রিক স্থানে এ রকম অবস্থান প্রকাশ করা হয় (৫, ৯, ৩) এ রকম একটি ভেক্টরের মাধ্যমে।

একটি দ্বিমাত্রিক ব্যবস্থায় একটি বিন্দুর অগণিত অবস্থান থাকতে পারে। একে সাংকেতিকভাবে প্রকাশ করা যায় (x, y)-এর মাধ্যমে। এই (x, y) হলো দ্বিমাত্রিক স্থান, যাতে x ও y-এর মান বসিয়ে এ স্থানের একটি নির্দিষ্ট অবস্থান প্রকাশ করা যায়।

ত্রিমাত্রিক বস্তুর ক্ষেত্রে তার অবস্থান প্রকাশ করা হবে ত্রিমাত্রিক স্থানে, সাংকেতিকভাবে যাকে (x, y, z) রূপে প্রকাশ করা যায়। আমাদের বাস্তব জীবনের প্রায় সবকিছু দ্বিমাত্রিক ও ত্রিমাত্রিক। তাই আমরা দ্বিমাত্রিক ও ত্রিমাত্রিক স্থান ভালোভাবে বুঝি। কিন্তু মাত্রা তিনের বেশি হলেই শুরু হয় যত বিপত্তি।

আমাদের মস্তিষ্ক তিন মাত্রার বেশি কিছু কল্পনা করতে পারে না। তাই ইমেজ স্পেসের ধারণা মাল্টিডাইমেনশন বা বহুমাত্রার ধারণার মতো অনেকটা অ্যাবস্ট্রাক্ট বা বিমূর্ত। ইমেজ স্পেস বোঝার সুবিধার্থে (যদিও এই সংখ্যা অসীম) ধরে নিই, আমাদের জগতে ১০০ রং রয়েছে। এখন খুব সরল একটা ৩২ পিক্সেলের ছবির কথা চিন্তা করি, যার প্রতিটি পিক্সেলে একেকটি রং রয়েছে। বিন্যাস সমাবেশের অঙ্ক কষে থাকলে খুব সহজেই nCr ফর্মুলা ব্যবহার করে বের করতে পারবেন, এই ৩২ পিক্সেলে রংগুলো মোট ১৪, ৩০, ১২, ৫০, ১৩, ৪৯, ১৭, ৪২, ৫৭, ৫৬, ০২, ২৬, ৭৭৫ ভাবে থাকতে পারে।

আরও পড়ুন

রেডিওর অজানা ১০

১৩ ফেব্রুয়ারি ২০২৪

পিক্সেলের সংখ্যা যদি অসীম হয়, তবে? আর যদি রঙের স্পেকট্রাম আরজিবি স্কেলের বাইরের স্কেলগুলো নিয়ে অসীম হয়? এ অসীমসংখ্যক পিক্সেল ও এর প্রতিটিতে অসীম রঙের কম্বিনেশনকে মিলিয়ে বলা হয় ইমেজ স্পেস, যার মাত্রার সংখ্যা অসীম।

ল্যাপটপ হাতে কম্পিউটারের জনক চার্লস ব্যাবেজ

সংখ্যাটা পড়ার দরকার নেই। শুধু একটু কল্পনা করার চেষ্টা করুন, এই সংখ্যা কত বড় হতে পারে। না পারলে সমস্যা নেই, আমি সাহায্য করছি। পৃথিবীতে থাকা মোট বালুকণার সংখ্যা কত হতে পারে, ভাবুন। অনেক, তাই না?

কী ভাবছেন, সংখ্যাটা এর কাছাকাছি? না, সংখ্যাটা এর ধারেকাছেও নেই। আমাদের পৃথিবীর মতো প্রায় দুই কোটি পৃথিবীতে যত বালুকণা আছে, সংখ্যাটা তার সমান। তবে এটা তো শুধু ৩২ পিক্সেলের একটা ছবির জন্য, যেখানে মোট রং ধরেছি মাত্র ১০০টি।

বর্তমানে ফোন বা ক্যামেরায় তোলা ছবি ও কম্পিউটার জেনারেটেড ইমেজগুলোতে কয়েক হাজার থেকে শুরু করে কয়েক লাখ পিক্সেল থাকে, যার প্রতিটিতে লাল, সবুজ ও নীলের প্রায় ১ দশমিক ৭ কোটি ভিন্ন রঙের কম্বিনেশন হতে পারে। এ রকম কয়েক হাজার পিক্সেলের একটা ছবির প্রতি পিক্সেলের ভিন্ন বিন্যাসসংখ্যা হিসাব করা কোনো মানুষের পক্ষে সম্ভব নয়। এ জন্য প্রয়োজন খুব শক্তিশালী কম্পিউটিং ডিভাইস। কিন্তু এটা শুধু আরজিবি স্কেলে কয়েক হাজার পিক্সেলের একটা ছবির হিসাব।

পিক্সেলের সংখ্যা যদি অসীম হয়, তবে? আর যদি রঙের স্পেকট্রাম আরজিবি স্কেলের বাইরের স্কেলগুলো নিয়ে অসীম হয়? এ অসীমসংখ্যক পিক্সেল ও এর প্রতিটিতে অসীম রঙের কম্বিনেশনকে মিলিয়ে বলা হয় ইমেজ স্পেস, যার মাত্রার সংখ্যা অসীম।

এমন এন-ডাইমেনশনাল স্পেসকে গাণিতিকভাবে (n1, n2, n3,…, n∞) আকারে প্রকাশ করা যায়, যেখানে প্রতিটি n1, n2,…, n∞ এর মানের জন্য ইমেজ স্পেসে একটি নির্দিষ্ট ছবি বা ফ্রেম পাওয়া যায়। হতে পারে ওই নির্দিষ্ট ফ্রেমটি একটি র৵ানডম পিক্সেলের কালেকশন, বাস্তব জীবনে যার কোনো মানে নেই।

ওপরের ছবিটি বাবেলিয়া লাইব্রেরির ছোট ইমেজ স্পেস থেকে নেওয়া এমনই একটি র৵ানডম ফ্রেম। ঝিরঝিরে টিভির স্ক্রিনের মতো দেখতে ছবিটির কিন্তু বিশেষ কোনো তাৎপর্য নেই। তবে এটি ইমেজ স্পেসের একটি নির্দিষ্ট ফ্রেম। এর নামও আছে—6322466584437036। বাবেলিয়া লাইব্রেরিতে এ নাম দিয়ে সার্চ করলে ঠিক এ ছবি আসবে। এ রকম ইমেজ স্পেস থেকে একটা নির্দিষ্ট ফ্রেম নিয়ে আসা এআই মডেলগুলোর কাজ।

আরও পড়ুন

২০২৪ সালে আসছে বিশ্বের প্রথম মানব মস্তিষ্কের মতো সুপারকম্পিউটার

১৮ ডিসেম্বর ২০২৩

প্রম্পটের টেক্সট যদি ইমেজ স্পেসের একটা বড় পরিসরকে নির্দেশ করে, তবে তা থেকে নির্দিষ্ট একটি ফ্রেম আউটপুট হিসেবে বেছে নেওয়ার জন্য আরেকটি স্পেসও কাজ করে এই মডেলগুলোতে। এর নাম লেটেন্ট স্পেস।

দ্বিমাত্রিক ব্যবস্থায় যেভাবে (২, -৩) বিন্দুটির অবস্থান এই স্থানাঙ্কের ২ ও -৩ দিয়ে বের করা হয়েছে, এআই মডেলগুলো ইনপুটে দেওয়া প্রম্পট থেকে এভাবে একটি নির্দিষ্ট ফ্রেম বের করে আনে। তবে এ ক্ষেত্রে তারা সরাসরি লেখাকে ইমেজ স্পেসের এন-ডাইমেনশনাল ভেক্টরে রূপান্তর করতে পারে না। এ জন্য ডিপ লার্নিং বা মেশিন লার্নিং কাজে আসে। কেউ যখন ‘ফোন হাতে এক লোক’ লিখে সার্চ করবে, তখন এআই মডেলটি আগে থেকে জানবে ‘ফোন’ কথাটি দিয়ে আমরা কী রকম আকার বা আকৃতি চাইছি। মডেলটি ইমেজ স্পেসে একটি জায়গাও ঠিক করে রেখেছে ‘ফোন’-এর জন্য।

মডেলগুলোকে ট্রেইন করার জন্য ফিড করা হলো ইতিহাসের বিখ্যাত ব্যক্তিদের হাতে আঁকা বা ভাস্কর্যের ছবি

যখন ‘ফোন’-এর সঙ্গে ‘লোক’-এর জন্য ছবি খোঁজা শুরু হবে, তখন মডেলগুলো ইমেজ স্পেসে ফোনের জন্য নির্ধারিত জায়গায় ‘লোক’-এর সন্ধান করতে শুরু করবে। এভাবে প্রম্পট বা কয়্যারিতে যত বেশি তথ্য থাকবে, এআই মডেলগুলো তত সুনির্দিষ্ট একটা ফ্রেমের সন্ধান করতে থাকবে, যেখানে বস্তুগুলোর আকার, আকৃতি ও রং—সবকিছু প্রম্পট টেক্সটের সঙ্গে মিলে যায়।

প্রম্পটের টেক্সট যদি ইমেজ স্পেসের একটা বড় পরিসরকে নির্দেশ করে, তবে তা থেকে নির্দিষ্ট একটি ফ্রেম আউটপুট হিসেবে বেছে নেওয়ার জন্য আরেকটি স্পেসও কাজ করে এই মডেলগুলোতে। এর নাম লেটেন্ট স্পেস।

লেটেন্ট স্পেসের কাজ হলো প্রম্পটের টেক্সট দিয়ে নির্ধারিত ইমেজ স্পেসের সুনির্দিষ্ট একটি বড় পরিসর থেকে নির্দিষ্ট ছবি বের করতে সাহায্য করা। ডিপ লার্নিং ব্যবহার করে এই লেটেন্ট স্পেসই নির্দিষ্ট করে দেবে, কোন ধরনের ছবি প্রম্পটের বর্ণনার সঙ্গে মিল রেখে আউটপুট হিসেবে দেখানো হবে। এ ছাড়া লেটেন্ট স্পেস একই ধরনের প্রম্পটের জন্য যেন একই ছবি একাধিকবার চলে না আসে, সেটি নিশ্চিত করে।

এই লেটেন্ট স্পেসকে ম্যাথমেটিক্যাল স্পেসও বলা হয়। কারণ, এটি ইমেজ স্পেসের সঙ্গে একটি (আসলে অসীম) নতুন মাত্রা যোগ করে আউটপুট নির্ধারণে সাহায্য করছে। লেটেন্ট স্পেস ইমেজ স্পেস থেকেও জটিল। আজ আর সেদিকে না-ই যাই। আপাতত জেনে রাখুন, লেটেন্ট স্পেসের কাজ ট্রেনিং ডেটা থেকে প্রশিক্ষণ ব্যবহার করে ইমেজ স্পেস থেকে একটি নির্দিষ্ট প্রম্পটের জন্য আউটপুট ছবি নির্ধারণে সাহায্য করা।

এই ইমেজ স্পেস ও লেটেন্ট স্পেসের সাহায্যে এআই মডেলগুলো বর্ণনা থেকে ছবি বের করে আনে। এ জন্য এ মডেলগুলোকে জেনারেটিভ সার্চ ইঞ্জিনও বলা হয়, যার কাজ ইমেজ স্পেস থেকে ইমেজ ব্রিড (Breed) করা বা জন্ম দেওয়া।

আরেকটু সহজ করে বললে, ইমেজ স্পেস হলো অসীমসংখ্যক পিক্সেলের অসীমসংখ্যক রঙের বিন্যাসবিশিষ্ট স্থান। বাক্যটি খুব ছোট হলেও এ কথার মানে কিন্তু বেশ গভীর।

ইমেজ স্পেসে অসীমসংখ্যক পিক্সেলে সব সম্ভব কম্বিনেশন আছে। এর মানে হলো, আপনি আজ পর্যন্ত আপনার মুঠোফোন দিয়ে যতগুলো ছবি তুলেছেন, তার সব এ ইমেজ স্পেসে আছে। শুধু তা-ই নয়, ভবিষ্যতে আপনি যত ছবি তুলবেন, তা-ও ইমেজ স্পেসে আছে। মূলত পৃথিবীর সব তোলা বা আঁকা ছবি এবং ভবিষ্যতে যা তোলা ও আঁকা হবে, তার সব এ ইমেজ স্পেসে আছে। এমনকি যেসব ছবি কোনো দিন কোনো খাতায় আঁকা হবে না, কোনো ক্যামেরায় তোলা হবে না, সেগুলো আছে এই ইমেজ স্পেসে।

প্রকৌশলীদের মনে তখন আরেকটি ভাবনা আসে। বাস্তব দুনিয়ায় হামেশা দেখি, এমন কিছুর ছবি যদি তৈরি করা সম্ভব হয় এআই দিয়ে, তবে বাস্তব জীবনে যা সাধারণত দেখি না, এমন কিছু কেন তৈরি করা যাবে না?

ছোটবেলা থেকে এ পর্যন্ত আপনি যা কিছু দেখেছেন, এখন বিজ্ঞানচিন্তা ম্যাগাজিনে যা দেখছেন এবং বাকি জীবনে যা নিজের চোখে দেখবেন, সেসব ঘটনার প্রতিটি ফ্রেম আছে ইমেজ স্পেসে। অর্থাৎ বিগ ব্যাংয়ের মাধ্যমে সৃষ্টির শুরু থেকে এখন পর্যন্ত বিশ্বব্রহ্মাণ্ডে যা কিছু হয়েছে, হচ্ছে, হবে এবং যা কোনো দিন হয়নি ও হবে না, তার সবই আছে এ ইমেজ স্পেসে।

পেঙ্গুইনের দলকে রণসাজে সজ্জিত করে তোলা যায়

ইমেজ স্পেসের এ বিশালতায় চোখ উঠে কপালে গিয়ে ঠেকলে আশ্চর্য হবেন না। প্রথমবার ইমেজ স্পেস বোঝার পর আমিও দুই দণ্ড সিলিংয়ের দিকে তাকিয়ে ছিলাম।

ইমেজ স্পেসের এ বিশালতা এআই মডেলগুলোর প্রকৌশলীদের আরও ভাবাতে শুরু করে। প্রথম প্রথম মডেলগুলো দিয়ে বাস্তব জিনিস, যেমন বাস, ফল, কলম, মানুষ—এসব তৈরির জন্য প্রস্তুত করা হতে থাকে। শূন্য থেকে একটি ফুল, একটি প্লেন, এমনকি একজন মানুষের ছবি বানাতে সক্ষম হয় এই মডেলগুলো। দ্রুত শিখতে ও উন্নতি করতে থাকে প্রোগ্রামগুলো। এআই দিয়ে তৈরি মানবাকৃতির ‘এডমন্ড দ্য বেলামি’ নামের একটি ছবি ২০১৮ সালে প্রায় সাড়ে ৪ কোটি টাকার বিনিময়ে বিক্রি করে প্যারিসের একটি প্রতিষ্ঠান।

প্রকৌশলীদের মনে তখন আরেকটি ভাবনা আসে। বাস্তব দুনিয়ায় হামেশা দেখি, এমন কিছুর ছবি যদি তৈরি করা সম্ভব হয় এআই দিয়ে, তবে বাস্তব জীবনে যা সাধারণত দেখি না, এমন কিছু কেন তৈরি করা যাবে না? শুরু হয় নতুন করে এআই মডেলগুলো ট্রেইন করা। মেশিন লার্নিং ও ডিপ লার্নিংয়ের কল্যাণে এই মডেলগুলো এমন ছবি তৈরি করতে পারবে, যা কোনো দিন কেউ দেখেনি বা কল্পনা করেনি।

একঝাঁক পেঙ্গুইনকে রণসাজে দেখতে চান? পারবেন। চাঁদের মাটিতে বাংলাদেশের পতাকা দেখতে চান? সেটাও দেখা যাবে মিডজার্নির মতো জেনারেটিভ সার্চ ইঞ্জিনের কল্যাণে।

এ রকম অবাস্তব ও কাল্পনিক ছবি তৈরি করার পর এ কৃত্রিম বুদ্ধিমত্তার মডেলগুলোর ইঞ্জিনিয়ারদের মাথায় আরেক চিন্তা চেপে বসে। যদি এ রকম কাল্পনিক ছবি, বাস্তব জীবনে যার কোনো অস্তিত্ব নেই, এগুলো ইমেজ স্পেস থেকে নিয়ে আউটপুট হিসেবে দেওয়া যায়, তবে যা বাস্তব জীবনে একসময় ছিল কিন্তু এখন নেই, সেগুলো কেন বের করে আনা যাবে না।

আরও পড়ুন

মহাবিশ্বের ভর কত

২৪ সেপ্টেম্বর ২০২৪

অতীতের ঐতিহাসিক ব্যক্তিত্ব ও প্রাণীদের ইমেজ স্পেস থেকে খুঁজে আনার প্রচেষ্টায় কাজ চলতে লাগল জেনারেটিভ অ্যাডভারসারিয়াল নেটওয়ার্ক পোর্ট্রেট পেইন্টিং মডেলগুলোর। মডেলগুলোকে ট্রেইন করার জন্য ফিড করা হলো ইতিহাসের বিখ্যাত ব্যক্তিদের হাতে আঁকা বা ভাস্কর্যের ছবি, যার ফলে আজ গ্যালিলিও গ্যালিলির ক্যামেরায় তোলা কোনো ছবি না থাকলেও তার ফটোরিয়েলিস্টিক ছবি তৈরি করা সম্ভব হয়েছে। ল্যাপটপ বা ফোন হাতে আইনস্টাইন, যুদ্ধের জন্য সুসজ্জিত পেঙ্গুইন ও এই লেখার অন্যান্য অবাস্তব ছবির মতো গ্যালিলিওর বাস্তবধর্মী ছবিটিও আমি তৈরি করেছি মিডজার্নির সাহায্যে কয়েক মুহূর্তে।

শুধু গ্যালিলিও নন, রানি নেফারতিতি, জুলিয়াস সিজার, আলেকজান্ডার দ্য গ্রেট—তাঁদের বাস্তবধর্মী চেহারাও মিলবে বিভিন্ন এআই ইঞ্জিনে। প্রায় ২ হাজার ৬০০ বছর আগে জন্ম নেওয়া পিথাগোরাসকে বাইক চালাতে দেখতে চান? তা-ও সম্ভব এআইয়ের সাহায্যে।

শুধু বিখ্যাত ব্যক্তি নন, তাঁদের কাজ সম্পর্কে যথেষ্ট জ্ঞান আছে এ মডেলগুলোর। চিত্রশিল্পী ভিনসেন্ট ভ্যান গঘের চেহারার পাশাপাশি তাঁর চিত্রকর্মকেও নকল করতে পারে এই এআই।

এ অ্যালগরিদমগুলো এতটাই দক্ষ যে তাদের যদি বলা হয় ভিনসেন্ট ভ্যান গঘের স্টাইলে লেওনার্দো দ্য ভিঞ্চির মোনালিসা আঁকতে, হুবহু তা-ই করে দেবে

এ অ্যালগরিদমগুলো এতটাই দক্ষ যে তাদের যদি বলা হয় ভিনসেন্ট ভ্যান গঘের স্টাইলে লেওনার্দো দ্য ভিঞ্চির মোনালিসা আঁকতে, হুবহু তা-ই করে দেবে। আউটপুট ইমেজটি মোনালিসার হলেও দেখে মনে হবে, এটা ভিঞ্চি নন, ভ্যান গঘ স্বয়ং এঁকেছেন। আর এখানে এআই নিয়ে বিতর্ক ও বিপত্তির শুরু।

এআই আর্ট নিয়ে বিতর্কের শুরু মূলত কপিরাইট ইস্যু ধরে। এআইয়ের সাহায্যে ভ্যান গঘের আঙ্গিকে তৈরি করা ভিঞ্চির এ নতুন ‘মোনালিসা’র প্রকৃত মালিক কে? আসল মোনালিসা যাঁর, সেই ভিঞ্চি? নাকি যে চিত্রশিল্পীর আর্ট স্টাইল কপি করে এটা বানানো হয়েছে, সেই ভ্যান গঘ? নাকি যে ব্যবহারকারী মডেলটিতে ভ্যান গঘের স্টাইলে মোনালিসা আঁকতে প্রম্পটে নির্দেশ দেন, সেই ব্যক্তি? নাকি এআই মডেলটি যে ইঞ্জিনিয়ার তৈরি করেছেন, তিনি? নাকি এআই মডেলটি নিজেই এ ছবির মালিক?

মডেলগুলো যেহেতু আমাদের প্রম্পটের ওপর নির্ভরশীল, তাই এগুলো এমন কিছু আউটপুট দিতে পারে না, যা আমরা কল্পনা করতে পারি না। অর্থাৎ ইমেজ স্পেসের খুব ছোট একটা অংশ আমরা দেখতে পাব, যেটুকু আমরা চিন্তা করতে পারি।

আচ্ছা, নতুন একটা ছবির কথা বলি। এই যে পিথাগোরাসের বাইক চালানোর ছবিটি আমি মিডজার্নির ডিসকর্ড বটে ইনস্ট্রাকশন দিয়ে কয়েক সেকেন্ডে বানিয়ে এনেছি বিজ্ঞানচিন্তার এই লেখার জন্য, এর মালিক কে? আমি? এআই মডেল? মডেলটির ইঞ্জিনিয়ার দল? নাকি এ ম্যাগাজিনে প্রকাশিত হচ্ছে, তাই বিজ্ঞানচিন্তা?

কপিরাইট নিয়ে এ রকম অস্পষ্টতার কারণে অনেক পেইন্টার ও ডিজিটাল আর্টিস্ট এআই আর্ট জেনারেশনের বিপক্ষে কথা বলছেন। তবে ছবিগুলোর মালিক যিনিই হন, এ অসম্ভব ছবিগুলো যে কৃত্রিম বুদ্ধিমত্তার সাহায্য ছাড়া সম্ভব ছিল না, তা খুব স্পষ্ট।

ইমেজ স্পেস এক্সপ্লোর করার এর চেয়ে ভালো টুল এখন পর্যন্ত আবিষ্কৃত হয়নি। তবে এই এআই মডেলগুলোর সীমাবদ্ধতা আছে। এর সীমাবদ্ধতা হলো আমাদের কল্পনাশক্তি।

মডেলগুলো যেহেতু আমাদের প্রম্পটের ওপর নির্ভরশীল, তাই এগুলো এমন কিছু আউটপুট দিতে পারে না, যা আমরা কল্পনা করতে পারি না। অর্থাৎ ইমেজ স্পেসের খুব ছোট একটা অংশ আমরা দেখতে পাব, যেটুকু আমরা চিন্তা করতে পারি।

বহুমাত্রিক বা হায়ার অর্ডারের কোনো কিছু যেহেতু আমরা কল্পনা করতে পারি না, ইমেজ স্পেসের বড় অংশ আমাদের অনাবিষ্কৃত থেকে যাবে। তবে হয়তো ভবিষ্যতে এমন কোনো মডেল তৈরি হবে, যা আমাদের চিন্তা-কল্পনা ছাড়িয়ে এক্সপ্লোর করতে পারবে এ ইমেজ স্পেস। তখন হয়তো জানা যাবে পুরো ইমেজ স্পেস, অর্থাৎ পুরো মহাবিশ্বকে।

লেখক: ব্যবস্থাপক, ডেফটাইল্ড

সূত্র: এআই আর্টিস্টস, মিডজার্নি ও এআই আর্টস শপ

*লেখাটি ২০২৩ সালে বিজ্ঞানচিন্তার জানুয়ারি সংখ্যায় প্রকাশিত

আরও পড়ুন

সত্যিকার কৃত্রিম বুদ্ধিমত্তা যুগের দ্বারপ্রান্তে

ইন্টারনেট বন্ধ হয়ে গেলে কী হবে

কৃষিতে কৃত্রিম বুদ্ধিমত্তা

প্রযুক্তি থেকে আরও পড়ুন