সোরা এআই: ভিডিও মাধ্যমে এআই বিপ্লব

ওপেনএআইয়ের নতুন চমক সোরা। কৃত্রিম এই বুদ্ধিমত্তাকে লিখে নির্দেশ দিলেই হবে, বানিয়ে দেবে ভিডিও। পুরো ভিডিও মাধ্যমকে বদলে দিতে চলা এই কৃত্রিম বুদ্ধিমত্তার ভেতরের কথা...

সোরা নামের টেক্সট-টু-ভিডিও জেনারেটিভ এআই দিয়ে বানানো একটি ভিডিওর ফ্রেম

চ্যাটজিপিটি ও ডাল-ই দিয়ে কৃত্রিম বুদ্ধিমত্তা প্রযুক্তিতে জায়গা করে নিয়েছে ওপেনএআই। দুটির কথাই সম্ভবত সবার জানা।

চ্যাটজিপিটি একটি এআই চ্যাটবট। ই–মেইল লেখা, কোডিং, রচনা বা সারকথা গোছানো, জটিল প্রশ্নের উত্তর বের করাসহ নিত্যদিনের নানা কাজে এখন অনেকেই চ্যাটজিপিটি ব্যবহার করছেন। আর ডাল-ই এআই ইমেজ জেনারেটিভ মডেল। এটি ব্যবহার করে কয়েক সেকেন্ডে যে কেউ লেখা বা কী রকম ছবি চাই, তার বর্ণনা দিয়ে বানিয়ে নিচ্ছেন ছবি।

ডাল-ই ব্যবহারের জন্য উন্মুক্ত করার পর থেকেই সবাই অপেক্ষা করতে শুরু করেন একটা টেক্সট-টু-ভিডিও এআইয়ের। ডাল-ই যেভাবে বর্ণনা থেকে ছবি বানিয়ে দিতে পারে, মানুষের আশা ছিল, এই মডেল সেভাবে দৃশ্যের বর্ণনামূলক লেখা থেকে বানিয়ে দিতে পারবে পুরো ভিডিও।

এর জন্য বেশ খানিকটা সময় অপেক্ষা করতে হয়েছে। অবশেষে ঠিক চলে এসেছে সেই দিন। এখন লেখা থেকেই বানানো যাবে ভিডিও। জানতে হবে না এডিটিং, থাকতে হবে না ভিডিও প্রোডাকশন সফটওয়্যারের জ্ঞান। সব করে দেবে এআই।

এই ছবিটিও সোরা এআই দিয়ে বানানো একটি ভিডিওর ফ্রেম

কৃত্রিম বুদ্ধিমত্তার এই জগতে ওপেনএআই তার জায়গা আরও পোক্ত করতে এবার নিয়ে এসেছে ‘সোরা’ (Sora)। টেক্সট-টু-ভিডিও জেনারেটিভ এআই; অর্থাৎ এই এআই মডেলকে একটি দৃশ্যের বর্ণনা লিখে দিলে সেই বর্ণনা থেকেই এআই বানিয়ে দেবে গোটা ভিডিও।

যেকোনো এআই মডেলকে ট্রেইন করা বা প্রশিক্ষণ দেওয়ার মতো করেই শেখানো হয়েছে এটিকে। সে জন্য দেওয়া হয়েছে বিশালাকার ভিডিও লাইব্রেরি। এসব ভিডিও থেকে সোরাকে বোঝানো হয়েছে, একটি বল কীভাবে মাটিতে বাউন্স করে ওপরে উঠে আসে, কিংবা সূর্য মাথার ওপর কোন দিকে থাকলে ছায়া কোন দিকে পড়বে বা শার্ট প্যান্টের ভেতরে ইন করা থাকলে দেখতে কেমন হয় ইত্যাদি।

এসব দেখে শেখার পর যখন একে বলা হচ্ছে ‘শার্ট ইন করা এক ব্যক্তি কড়া রোদে বাস্কেটবল খেলছে’—এমন ভিডিও বানাতে, তখন সোরা ভিডিও থেকে শেখা তথ্য ব্যবহার করে তৈরি করে দিচ্ছে নতুন ভিডিও। প্রক্রিয়াটা বেশ জটিল এবং বাইরে থেকে দেখতে খুব অগোছালো মনে হবে। পাঠকদের সুবিধার্থে একটু সহজ করে বলার চেষ্টা করা যাক।

সোরা একটি ডিফিউশন মডেলের মতো করে বানানো। এর মানে হলো, সোরাকে যখন শার্ট ইন করা ব্যক্তির রোদে বাস্কেটবল খেলার ভিডিও বানাতে বলা হবে, তখন সে শার্ট পরা ব্যক্তি, বাস্কেটবল, সূর্য, সূর্যের কারণে মাটিতে পড়া ছায়া—এসব তথ্য একটি খালি ক্যানভাসের ওপর বসিয়ে একটি ছবির মতো তৈরি করবে। কিন্তু সেই ছবি দেখে তার আগাগোড়া কিছুই বোঝা যাবে না। কেননা, এগুলো নয়েজি (Noisy) ছবি; অর্থাৎ ছবিতে শুধু তথ্যগুলো বসানো হয়েছে, কিছু গোছানো হয়নি। এ ছবিকে আগের দিনের ঝড়–বৃষ্টিকালে টিভির ঝিরঝির পর্দার সঙ্গে তুলনা করা যায়। ঝড়–বৃষ্টি কমতে থাকলে যেভাবে ঝিরঝির পর্দা ধীরে ধীরে পরিষ্কার ছবিতে রূপ নিতে থাকে, একটি নয়েজি ছবিও কয়েকবার রূপান্তরের পর একটি পূর্ণাঙ্গ ফ্রেমে রূপ নেবে।

মডেলটি খুব সূক্ষ্মভাবে নিজের শেখা তথ্য ব্যবহার করে সেই নয়েজি ছবির অংশগুলো একটু একটু করে গোছাতে থাকে। এই প্রক্রিয়াকে বলা হয় লুপ (Loop) ও প্রেডিকশন ক্যালকুলেশন (Prediction calculation)। এভাবে একাধিক প্রেডিকশন ও লুপের মাধ্যেমে নয়েজি ইমেজটিকে অর্থবোধক ছবি বা পূর্ণাঙ্গ ফ্রেমে রূপান্তর করা হয়।

চ্যাটজিপিটির পর ওপেন এআইয়ের নতুন চমক সোরা
আরও পড়ুন

ভিডিওর এই ফ্রেম বা ছবি থেকে আবারও শুরু হয় ফাঁকা ক্যানভাসে নতুন ছবি তৈরির কাজ। এখানেও এলোমেলোভাবে বসানো হয় প্রয়োজনীয় তথ্য। এই প্রক্রিয়া একাধিকবার পুনরাবৃত্তির পর নতুন ফ্রেমটি এমনভাবে সাজানো হয়, যেন তার ভেতরে থাকা তথ্য-উপাত্ত আগের ফ্রেমের ছবি থেকে একটু, অতি সামান্য পরিমাণ ভিন্ন হয়। এভাবে একের পর এক অসংখ্য ফ্রেম বানিয়ে, সেগুলো একের পর এক চালিয়ে ভিডিওর ভেতরে যেকোনো বস্তুর নড়াচড়া ফুটিয়ে তোলা হয়। যাঁরা বায়োস্কোপ দেখেছেন, তাঁরা বিষয়টা সহজে বুঝতে পারবেন।

এভাবে কোনো লেখা থেকে একটি ছবি বানিয়ে, পরে সেই ছবিতে অল্প অল্প পরিবর্তন এনে অসংখ্য ফ্রেম একসঙ্গে সাজিয়ে বানানো হয় ভিডিও। এভাবে সোরা যেকোনো লেখা থেকেই পূর্ণাঙ্গ ভিডিও বানাতে পারে নিজের শেখা তথ্য ও প্রেডিকটিভ ক্যালকুলেশনের সাহায্যে।

ধরুন, আপনি একজন কনটেন্ট ক্রিয়েটর। কোনো ভিডিওর জন্য আপনার একটি নির্দিষ্ট দৃশ্য প্রয়োজন। সেন্ট মার্টিন দ্বীপে বসে একজন লোক ডাবের পানি খাচ্ছেন, এ রকম একটা ভিডিওই আপনার লাগবে। সোরাকে শুধু এটুকু লিখে দিলেই কৃত্রিম বুদ্ধিমত্তা ব্যবহার করে টুলটি আপনার জন্য ভিডিওটি বানিয়ে দেবে। এ জন্য আপনাকে যেতে হবে না সেন্ট মার্টিন দ্বীপে, শুটিং করার জন্য নিতে হবে না কর্তৃপক্ষের অনুমতি, এমনকি ক্যামেরাম্যান, ক্যামেরা এবং অভিনেতা—কারও জন্যই খরচ করতে হবে না একটি টাকাও। ঘরে বসেই বানিয়ে ফেলতে পারবেন বাস্তবধর্মী এসব ভিডিও।

শুধু নতুন ভিডিও বানিয়ে দেওয়া নয়, সাধারণ কোনো ভিডিওতে নতুন দৃশ্য জুড়ে দিতে বা নতুন ফ্রেম যোগ করতেও ব্যবহার করা যাবে সোরা। এতে সাধারণ কনটেন্ট ক্রিয়েটরদের পাশাপাশি ছোট-বড় প্রোডাকশন স্টুডিও বেশ লাভবান হবে

শুধু দৃশ্যের বর্ণনা থেকে দৃশ্য বানানো নয়, ভিডিওটি কীভাবে দৃশ্যায়িত হবে, সেটিও খেয়াল রাখতে পারবে এই এআই। ধরুন, আপনি চান ভিডিও শুরু হোক সমুদ্রের ভেতর থেকে একটি ড্রোন শটের মতো করে। ধীরে ধীরে তা ডাবের পানি পান করতে থাকা ব্যক্তির সামনে আসতে থাকবে এবং একপর্যায়ে তাঁর মুখের সামনে এসে ড্রোন শটটি থেমে যাবে। এ রকম নির্দিষ্টভাবে দৃশ্যায়িত ভিডিও পেতে চাইলে তা শুধু ওভাবে লিখে দিতে হবে। ব্যস! সেটা বুঝে ওভাবেই ভিডিও বানিয়ে দেবে এআই। প্রয়োজন হবে না ড্রোন কিংবা কোনো বিশেষ সরঞ্জাম।

শুধু নতুন ভিডিও বানিয়ে দেওয়া নয়, সাধারণ কোনো ভিডিওতে নতুন দৃশ্য জুড়ে দিতে বা নতুন ফ্রেম যোগ করতেও ব্যবহার করা যাবে সোরা। এতে সাধারণ কনটেন্ট ক্রিয়েটরদের পাশাপাশি ছোট-বড় প্রোডাকশন স্টুডিও বেশ লাভবান হবে।

সাধারণত কনটেন্ট ক্রিয়েটর বা চিত্রনাট্য নির্মাতাদের যখন নির্দিষ্ট কোনো দৃশ্যের প্রয়োজন হয়, যা শুটিং করা খুব ব্যয়বহুল, তাঁরা স্টক ভিডিও ব্যবহার করেন। এসব ভিডিও ইন্টারনেট থেকে অর্থের বিনিময়ে ব্যবহারের জন্য কিনতে হয়। অনেক সময় এসব ভিডিও নির্মাতার মনের মতো হয় না। ভিডিও ধারণের স্টাইলও অনেক সময় মূল ভিডিওর সঙ্গে খাপ খায় না। ফলে ভিডিওর মান ও মৌলিকত্ব—দুটিই ক্ষতিগ্রস্ত হয়।

সোরার মতো এআই টুল ব্যবহার করে কনটেন্ট ক্রিয়েটর বা নির্মাতারা নিজেদের মতো করেই ভিডিও বানিয়ে নিতে পারবেন। নিজে যেভাবে দৃশ্যটাকে চিত্রায়িত করেছেন, সেভাবেই বানিয়ে দেবে এআই। ফলে এই কৃত্রিম বুদ্ধিমত্তা দিয়ে বানানো দৃশ্যতেও থাকবে নির্মাতার ছাপ। তা ছাড়া এমন অনেক দৃশ্যই তৈরি করা যাবে এআই ব্যবহার করে, যা হয়তো বাস্তবে শুটিং করা সম্ভবও না।

ধরুন, আপনি দেখাতে চান, কিছু ডলফিন অ্যান্টার্কটিকায় বরফের ওপর পা দিয়ে সাইকেল চালাচ্ছে বা কোনো মহাকাশযাত্রী সূর্যের কাছে গেলে কী হবে, তা দেখাতে চান। এসব জিনিস আপনি ক্যামেরায় ধারণ করতে পারবেন না। কেন, তা তো বুঝতেই পারছেন। এসবের জন্য আপনাকে সিজিআই (CGI—Computer-generated imagery) ব্যবহার করতে হবে। এগুলো ব্যয়বহুল এবং সময়সাপেক্ষ। তবে সোরার সাহায্যে এসব করা যাবে কয়েক মিনিটে।

সোরা এআই দিয়ে বানানো একটি ভিডিওর ফ্রেমে দেখা যাচ্ছে, এক নারী হেঁটে যাচ্ছে; পুরোটাই এআই দিয়ে বানানো
সোরায় এখনো অনেক কমতি রয়ে গেছে। এই মডেল যদিও মানুষ, প্রাণী, বস্তু, গতি, আলো—এসব দেখতে কেমন তা জানে; এগুলো পরস্পরের সঙ্গে ও বাহ্যিক দুনিয়ার সঙ্গে কীভাবে আচরণ করে, তা এটি এখনো সম্পূর্ণ বুঝে উঠতে পারেনি

তা ছাড়া অনেক জটিল ক্যামেরা শট আছে, যেগুলো ভিডিওগ্রাফারের জন্য খুব ঝুঁকিপূর্ণ। সেসব অদ্ভুতুড়ে ক্যামেরা অ্যাঙ্গেলেও ভিডিও বানিয়ে দিতে পারবে সোরা অনায়াসে। তবে সোরা আপাতত শুধু এক মিনিটের ছোট ভিডিও বানাতে পারে। বলা বাহুল্য, এগুলো টিকটক বা রিলসের মতো শর্ট ভিডিও যুগের জন্য উপযুক্ত।

সোরায় এখনো অনেক কমতি রয়ে গেছে। এই মডেল যদিও মানুষ, প্রাণী, বস্তু, গতি, আলো—এসব দেখতে কেমন তা জানে; এগুলো পরস্পরের সঙ্গে ও বাহ্যিক দুনিয়ার সঙ্গে কীভাবে আচরণ করে, তা এটি এখনো সম্পূর্ণ বুঝে উঠতে পারেনি। এর কিছু উদাহরণ সোরার প্রকাশ করা ভিডিওতে খোদ ওপেনএআই আঙুল দিয়ে দেখিয়ে দিয়েছে। প্রকাশিত ভিডিওর বেশির ভাগ খুব ন্যাচারাল ও বাস্তবধর্মী মনে হলেও কয়েকটি ভিডিওতে বেশ কিছু অসংগতি দেখা যায়। অনেক ক্ষেত্রে মানুষের হাতের নড়াচড়া দেখে মনে হয় রোবটের মতো। আবার একটি ভিডিওতে বায়ুপ্রবাহের সঙ্গে মোমবাতির আগুনের দিকের বৈসাদৃশ্য দেখা যায়। আবার কোনো কোনো ভিডিওতে ভিডিওর মাঝখানেই শূন্য থেকেই পশু-প্রাণী তৈরি হচ্ছে বলে মনে হচ্ছে।

যদিও এসব চিহ্ন থাকায় খুব সহজে এআই দিয়ে বানানো ভিডিও শনাক্ত করা যাবে বলে মনে হচ্ছে, তবে ধরিয়ে না দিলে হয়তো অনেকের চোখে এগুলো বাধবে না; অর্থাৎ এসব ভিডিও অধিকাংশের কাছে বাস্তব মনে হবে, যা খুব ভয়াবহ হতে পারে।

আরও পড়ুন

এ রকম এআই ব্যবহার করে যে কাউকে বা যেকোনো বিষয় নিয়ে নানা ধরনের ক্ষতিকর, অনৈতিক ভিডিও তৈরি করা সম্ভব। এ জন্যই সোরাকে এখন রেড টিমার্সদের (Red teamers) হাতে দেওয়া হয়েছে, যেন তারা মডেলটি সঠিকভাবে যাচাই করতে পারে। এই দলে রয়েছেন অনেক গ্রাফিকস বা ভিজ্যুয়াল আর্টিস্ট, নির্মাতা ও ডিজাইনার। তাঁদের কাজ হচ্ছে, এই এআই কতটা নেতিবাচকভাবে ব্যবহার করা যায়, তা শনাক্ত করা, ভুলত্রুটি বের করা এবং এর প্রতিকারস্বরূপ কী করা যেতে পারে, সেসব বিষয়ে ডেভেলপারদের জানানো। ওপেনএআই সচেতনভাবেই চাচ্ছে সোরাকে যেন কাউকে হয়রানি বা অনৈতিক কাজে ব্যবহার করা না হয়।

সোরা যেহেতু এখনো রেড টিমার্সদের পর্যালোচনায় আছে, তাই ঠিক কবে নাগাদ সবার জন্য উন্মুক্ত করে দেওয়া হবে, তা কারও জানা নেই। তবে এটা নিশ্চিত যে একবার সবার ব্যবহারের জন্য উন্মুক্ত করে দিলে সোশ্যাল মিডিয়া থেকে শুরু করে গণমাধ্যম, নাটক-সিনেমার মতো সব ভিজ্যুয়াল মাধ্যমেই ব্যাপক পরিবর্তন আসবে, হোক তা নেতিবাচক বা ইতিবাচক।

লেখক: ব্যবস্থাপক, ডেফ্টাইল্ড

সূত্র: ওপেনএআই এবং ডেটাক্যাম্প