প্রযুক্তি
সোরা এআই: ভিডিও মাধ্যমে এআই বিপ্লব
ওপেনএআইয়ের নতুন চমক সোরা। কৃত্রিম এই বুদ্ধিমত্তাকে লিখে নির্দেশ দিলেই হবে, বানিয়ে দেবে ভিডিও। পুরো ভিডিও মাধ্যমকে বদলে দিতে চলা এই কৃত্রিম বুদ্ধিমত্তার ভেতরের কথা...
চ্যাটজিপিটি ও ডাল-ই দিয়ে কৃত্রিম বুদ্ধিমত্তা প্রযুক্তিতে জায়গা করে নিয়েছে ওপেনএআই। দুটির কথাই সম্ভবত সবার জানা।
চ্যাটজিপিটি একটি এআই চ্যাটবট। ই–মেইল লেখা, কোডিং, রচনা বা সারকথা গোছানো, জটিল প্রশ্নের উত্তর বের করাসহ নিত্যদিনের নানা কাজে এখন অনেকেই চ্যাটজিপিটি ব্যবহার করছেন। আর ডাল-ই এআই ইমেজ জেনারেটিভ মডেল। এটি ব্যবহার করে কয়েক সেকেন্ডে যে কেউ লেখা বা কী রকম ছবি চাই, তার বর্ণনা দিয়ে বানিয়ে নিচ্ছেন ছবি।
ডাল-ই ব্যবহারের জন্য উন্মুক্ত করার পর থেকেই সবাই অপেক্ষা করতে শুরু করেন একটা টেক্সট-টু-ভিডিও এআইয়ের। ডাল-ই যেভাবে বর্ণনা থেকে ছবি বানিয়ে দিতে পারে, মানুষের আশা ছিল, এই মডেল সেভাবে দৃশ্যের বর্ণনামূলক লেখা থেকে বানিয়ে দিতে পারবে পুরো ভিডিও।
এর জন্য বেশ খানিকটা সময় অপেক্ষা করতে হয়েছে। অবশেষে ঠিক চলে এসেছে সেই দিন। এখন লেখা থেকেই বানানো যাবে ভিডিও। জানতে হবে না এডিটিং, থাকতে হবে না ভিডিও প্রোডাকশন সফটওয়্যারের জ্ঞান। সব করে দেবে এআই।
কৃত্রিম বুদ্ধিমত্তার এই জগতে ওপেনএআই তার জায়গা আরও পোক্ত করতে এবার নিয়ে এসেছে ‘সোরা’ (Sora)। টেক্সট-টু-ভিডিও জেনারেটিভ এআই; অর্থাৎ এই এআই মডেলকে একটি দৃশ্যের বর্ণনা লিখে দিলে সেই বর্ণনা থেকেই এআই বানিয়ে দেবে গোটা ভিডিও।
যেকোনো এআই মডেলকে ট্রেইন করা বা প্রশিক্ষণ দেওয়ার মতো করেই শেখানো হয়েছে এটিকে। সে জন্য দেওয়া হয়েছে বিশালাকার ভিডিও লাইব্রেরি। এসব ভিডিও থেকে সোরাকে বোঝানো হয়েছে, একটি বল কীভাবে মাটিতে বাউন্স করে ওপরে উঠে আসে, কিংবা সূর্য মাথার ওপর কোন দিকে থাকলে ছায়া কোন দিকে পড়বে বা শার্ট প্যান্টের ভেতরে ইন করা থাকলে দেখতে কেমন হয় ইত্যাদি।
এসব দেখে শেখার পর যখন একে বলা হচ্ছে ‘শার্ট ইন করা এক ব্যক্তি কড়া রোদে বাস্কেটবল খেলছে’—এমন ভিডিও বানাতে, তখন সোরা ভিডিও থেকে শেখা তথ্য ব্যবহার করে তৈরি করে দিচ্ছে নতুন ভিডিও। প্রক্রিয়াটা বেশ জটিল এবং বাইরে থেকে দেখতে খুব অগোছালো মনে হবে। পাঠকদের সুবিধার্থে একটু সহজ করে বলার চেষ্টা করা যাক।
সোরা একটি ডিফিউশন মডেলের মতো করে বানানো। এর মানে হলো, সোরাকে যখন শার্ট ইন করা ব্যক্তির রোদে বাস্কেটবল খেলার ভিডিও বানাতে বলা হবে, তখন সে শার্ট পরা ব্যক্তি, বাস্কেটবল, সূর্য, সূর্যের কারণে মাটিতে পড়া ছায়া—এসব তথ্য একটি খালি ক্যানভাসের ওপর বসিয়ে একটি ছবির মতো তৈরি করবে। কিন্তু সেই ছবি দেখে তার আগাগোড়া কিছুই বোঝা যাবে না। কেননা, এগুলো নয়েজি (Noisy) ছবি; অর্থাৎ ছবিতে শুধু তথ্যগুলো বসানো হয়েছে, কিছু গোছানো হয়নি। এ ছবিকে আগের দিনের ঝড়–বৃষ্টিকালে টিভির ঝিরঝির পর্দার সঙ্গে তুলনা করা যায়। ঝড়–বৃষ্টি কমতে থাকলে যেভাবে ঝিরঝির পর্দা ধীরে ধীরে পরিষ্কার ছবিতে রূপ নিতে থাকে, একটি নয়েজি ছবিও কয়েকবার রূপান্তরের পর একটি পূর্ণাঙ্গ ফ্রেমে রূপ নেবে।
মডেলটি খুব সূক্ষ্মভাবে নিজের শেখা তথ্য ব্যবহার করে সেই নয়েজি ছবির অংশগুলো একটু একটু করে গোছাতে থাকে। এই প্রক্রিয়াকে বলা হয় লুপ (Loop) ও প্রেডিকশন ক্যালকুলেশন (Prediction calculation)। এভাবে একাধিক প্রেডিকশন ও লুপের মাধ্যেমে নয়েজি ইমেজটিকে অর্থবোধক ছবি বা পূর্ণাঙ্গ ফ্রেমে রূপান্তর করা হয়।
ভিডিওর এই ফ্রেম বা ছবি থেকে আবারও শুরু হয় ফাঁকা ক্যানভাসে নতুন ছবি তৈরির কাজ। এখানেও এলোমেলোভাবে বসানো হয় প্রয়োজনীয় তথ্য। এই প্রক্রিয়া একাধিকবার পুনরাবৃত্তির পর নতুন ফ্রেমটি এমনভাবে সাজানো হয়, যেন তার ভেতরে থাকা তথ্য-উপাত্ত আগের ফ্রেমের ছবি থেকে একটু, অতি সামান্য পরিমাণ ভিন্ন হয়। এভাবে একের পর এক অসংখ্য ফ্রেম বানিয়ে, সেগুলো একের পর এক চালিয়ে ভিডিওর ভেতরে যেকোনো বস্তুর নড়াচড়া ফুটিয়ে তোলা হয়। যাঁরা বায়োস্কোপ দেখেছেন, তাঁরা বিষয়টা সহজে বুঝতে পারবেন।
এভাবে কোনো লেখা থেকে একটি ছবি বানিয়ে, পরে সেই ছবিতে অল্প অল্প পরিবর্তন এনে অসংখ্য ফ্রেম একসঙ্গে সাজিয়ে বানানো হয় ভিডিও। এভাবে সোরা যেকোনো লেখা থেকেই পূর্ণাঙ্গ ভিডিও বানাতে পারে নিজের শেখা তথ্য ও প্রেডিকটিভ ক্যালকুলেশনের সাহায্যে।
ধরুন, আপনি একজন কনটেন্ট ক্রিয়েটর। কোনো ভিডিওর জন্য আপনার একটি নির্দিষ্ট দৃশ্য প্রয়োজন। সেন্ট মার্টিন দ্বীপে বসে একজন লোক ডাবের পানি খাচ্ছেন, এ রকম একটা ভিডিওই আপনার লাগবে। সোরাকে শুধু এটুকু লিখে দিলেই কৃত্রিম বুদ্ধিমত্তা ব্যবহার করে টুলটি আপনার জন্য ভিডিওটি বানিয়ে দেবে। এ জন্য আপনাকে যেতে হবে না সেন্ট মার্টিন দ্বীপে, শুটিং করার জন্য নিতে হবে না কর্তৃপক্ষের অনুমতি, এমনকি ক্যামেরাম্যান, ক্যামেরা এবং অভিনেতা—কারও জন্যই খরচ করতে হবে না একটি টাকাও। ঘরে বসেই বানিয়ে ফেলতে পারবেন বাস্তবধর্মী এসব ভিডিও।
শুধু নতুন ভিডিও বানিয়ে দেওয়া নয়, সাধারণ কোনো ভিডিওতে নতুন দৃশ্য জুড়ে দিতে বা নতুন ফ্রেম যোগ করতেও ব্যবহার করা যাবে সোরা। এতে সাধারণ কনটেন্ট ক্রিয়েটরদের পাশাপাশি ছোট-বড় প্রোডাকশন স্টুডিও বেশ লাভবান হবে
শুধু দৃশ্যের বর্ণনা থেকে দৃশ্য বানানো নয়, ভিডিওটি কীভাবে দৃশ্যায়িত হবে, সেটিও খেয়াল রাখতে পারবে এই এআই। ধরুন, আপনি চান ভিডিও শুরু হোক সমুদ্রের ভেতর থেকে একটি ড্রোন শটের মতো করে। ধীরে ধীরে তা ডাবের পানি পান করতে থাকা ব্যক্তির সামনে আসতে থাকবে এবং একপর্যায়ে তাঁর মুখের সামনে এসে ড্রোন শটটি থেমে যাবে। এ রকম নির্দিষ্টভাবে দৃশ্যায়িত ভিডিও পেতে চাইলে তা শুধু ওভাবে লিখে দিতে হবে। ব্যস! সেটা বুঝে ওভাবেই ভিডিও বানিয়ে দেবে এআই। প্রয়োজন হবে না ড্রোন কিংবা কোনো বিশেষ সরঞ্জাম।
শুধু নতুন ভিডিও বানিয়ে দেওয়া নয়, সাধারণ কোনো ভিডিওতে নতুন দৃশ্য জুড়ে দিতে বা নতুন ফ্রেম যোগ করতেও ব্যবহার করা যাবে সোরা। এতে সাধারণ কনটেন্ট ক্রিয়েটরদের পাশাপাশি ছোট-বড় প্রোডাকশন স্টুডিও বেশ লাভবান হবে।
সাধারণত কনটেন্ট ক্রিয়েটর বা চিত্রনাট্য নির্মাতাদের যখন নির্দিষ্ট কোনো দৃশ্যের প্রয়োজন হয়, যা শুটিং করা খুব ব্যয়বহুল, তাঁরা স্টক ভিডিও ব্যবহার করেন। এসব ভিডিও ইন্টারনেট থেকে অর্থের বিনিময়ে ব্যবহারের জন্য কিনতে হয়। অনেক সময় এসব ভিডিও নির্মাতার মনের মতো হয় না। ভিডিও ধারণের স্টাইলও অনেক সময় মূল ভিডিওর সঙ্গে খাপ খায় না। ফলে ভিডিওর মান ও মৌলিকত্ব—দুটিই ক্ষতিগ্রস্ত হয়।
সোরার মতো এআই টুল ব্যবহার করে কনটেন্ট ক্রিয়েটর বা নির্মাতারা নিজেদের মতো করেই ভিডিও বানিয়ে নিতে পারবেন। নিজে যেভাবে দৃশ্যটাকে চিত্রায়িত করেছেন, সেভাবেই বানিয়ে দেবে এআই। ফলে এই কৃত্রিম বুদ্ধিমত্তা দিয়ে বানানো দৃশ্যতেও থাকবে নির্মাতার ছাপ। তা ছাড়া এমন অনেক দৃশ্যই তৈরি করা যাবে এআই ব্যবহার করে, যা হয়তো বাস্তবে শুটিং করা সম্ভবও না।
ধরুন, আপনি দেখাতে চান, কিছু ডলফিন অ্যান্টার্কটিকায় বরফের ওপর পা দিয়ে সাইকেল চালাচ্ছে বা কোনো মহাকাশযাত্রী সূর্যের কাছে গেলে কী হবে, তা দেখাতে চান। এসব জিনিস আপনি ক্যামেরায় ধারণ করতে পারবেন না। কেন, তা তো বুঝতেই পারছেন। এসবের জন্য আপনাকে সিজিআই (CGI—Computer-generated imagery) ব্যবহার করতে হবে। এগুলো ব্যয়বহুল এবং সময়সাপেক্ষ। তবে সোরার সাহায্যে এসব করা যাবে কয়েক মিনিটে।
সোরায় এখনো অনেক কমতি রয়ে গেছে। এই মডেল যদিও মানুষ, প্রাণী, বস্তু, গতি, আলো—এসব দেখতে কেমন তা জানে; এগুলো পরস্পরের সঙ্গে ও বাহ্যিক দুনিয়ার সঙ্গে কীভাবে আচরণ করে, তা এটি এখনো সম্পূর্ণ বুঝে উঠতে পারেনি
তা ছাড়া অনেক জটিল ক্যামেরা শট আছে, যেগুলো ভিডিওগ্রাফারের জন্য খুব ঝুঁকিপূর্ণ। সেসব অদ্ভুতুড়ে ক্যামেরা অ্যাঙ্গেলেও ভিডিও বানিয়ে দিতে পারবে সোরা অনায়াসে। তবে সোরা আপাতত শুধু এক মিনিটের ছোট ভিডিও বানাতে পারে। বলা বাহুল্য, এগুলো টিকটক বা রিলসের মতো শর্ট ভিডিও যুগের জন্য উপযুক্ত।
সোরায় এখনো অনেক কমতি রয়ে গেছে। এই মডেল যদিও মানুষ, প্রাণী, বস্তু, গতি, আলো—এসব দেখতে কেমন তা জানে; এগুলো পরস্পরের সঙ্গে ও বাহ্যিক দুনিয়ার সঙ্গে কীভাবে আচরণ করে, তা এটি এখনো সম্পূর্ণ বুঝে উঠতে পারেনি। এর কিছু উদাহরণ সোরার প্রকাশ করা ভিডিওতে খোদ ওপেনএআই আঙুল দিয়ে দেখিয়ে দিয়েছে। প্রকাশিত ভিডিওর বেশির ভাগ খুব ন্যাচারাল ও বাস্তবধর্মী মনে হলেও কয়েকটি ভিডিওতে বেশ কিছু অসংগতি দেখা যায়। অনেক ক্ষেত্রে মানুষের হাতের নড়াচড়া দেখে মনে হয় রোবটের মতো। আবার একটি ভিডিওতে বায়ুপ্রবাহের সঙ্গে মোমবাতির আগুনের দিকের বৈসাদৃশ্য দেখা যায়। আবার কোনো কোনো ভিডিওতে ভিডিওর মাঝখানেই শূন্য থেকেই পশু-প্রাণী তৈরি হচ্ছে বলে মনে হচ্ছে।
যদিও এসব চিহ্ন থাকায় খুব সহজে এআই দিয়ে বানানো ভিডিও শনাক্ত করা যাবে বলে মনে হচ্ছে, তবে ধরিয়ে না দিলে হয়তো অনেকের চোখে এগুলো বাধবে না; অর্থাৎ এসব ভিডিও অধিকাংশের কাছে বাস্তব মনে হবে, যা খুব ভয়াবহ হতে পারে।
এ রকম এআই ব্যবহার করে যে কাউকে বা যেকোনো বিষয় নিয়ে নানা ধরনের ক্ষতিকর, অনৈতিক ভিডিও তৈরি করা সম্ভব। এ জন্যই সোরাকে এখন রেড টিমার্সদের (Red teamers) হাতে দেওয়া হয়েছে, যেন তারা মডেলটি সঠিকভাবে যাচাই করতে পারে। এই দলে রয়েছেন অনেক গ্রাফিকস বা ভিজ্যুয়াল আর্টিস্ট, নির্মাতা ও ডিজাইনার। তাঁদের কাজ হচ্ছে, এই এআই কতটা নেতিবাচকভাবে ব্যবহার করা যায়, তা শনাক্ত করা, ভুলত্রুটি বের করা এবং এর প্রতিকারস্বরূপ কী করা যেতে পারে, সেসব বিষয়ে ডেভেলপারদের জানানো। ওপেনএআই সচেতনভাবেই চাচ্ছে সোরাকে যেন কাউকে হয়রানি বা অনৈতিক কাজে ব্যবহার করা না হয়।
সোরা যেহেতু এখনো রেড টিমার্সদের পর্যালোচনায় আছে, তাই ঠিক কবে নাগাদ সবার জন্য উন্মুক্ত করে দেওয়া হবে, তা কারও জানা নেই। তবে এটা নিশ্চিত যে একবার সবার ব্যবহারের জন্য উন্মুক্ত করে দিলে সোশ্যাল মিডিয়া থেকে শুরু করে গণমাধ্যম, নাটক-সিনেমার মতো সব ভিজ্যুয়াল মাধ্যমেই ব্যাপক পরিবর্তন আসবে, হোক তা নেতিবাচক বা ইতিবাচক।