টেক্সট থেকে ভিডিও বানাবে সোরা এআই

টেক্সট থেকে শুধু ছবি নয়, এআই দিয়ে বানানো যাবে ভিডিও! নতুন এই চমক নিয়ে আসছে চ্যাটজিপিটি-খ্যাত ওপেন এআইয়ের নতুন কৃত্রিম বুদ্ধিমত্তা সোরা এআই। কীভাবে কাজ করে এটি? কী ধরনের ভিডিও বানাতে পারে?

সোরা এআই দিয়ে বানানো একটি ভিডিওর ফ্রেম, ডলফিন সাইকেল চালাচ্ছে

কৃত্রিম বুদ্ধিমত্তার জগতে ওপেন এআই এখন পরিচিত নাম। চ্যাটজিপিটি বাজারে আসার পরপর পুরো প্রযুক্তি জগৎ বদলে গেছে। গুগলের মতো বড় প্রতিষ্ঠানও নড়েচড়ে বসতে বাধ্য হয়েছে। এবার সেই ওপেন এআই আনতে চলেছে নতুন চমক। এই চমকের নাম ‘সোরা’। নতুন এই কৃত্রিম বুদ্ধিমত্তা টেক্সট বা লেখা থেকেই তৈরি করে দিতে পারে ভিডিও।

সোরা নামের এই টেক্সট-টু-ভিডিও এআই মূলত একধরনের জেনারেটিভ এআই মডেল। অর্থাৎ চ্যাটজিপিটির মতোই এতে আপনি একটি টেক্সট বা কথা লিখে নির্দেশ (প্রম্পট) দিতে পারবেন। সে অনুসারে ভিডিও বানিয়ে দেবে এই কৃত্রিম বুদ্ধিমত্তা। শুধু ভিডিও-ই নয়, এটি বানাতে পারে অ্যানিমেশনও। এবং সেগুলো সবই যথেষ্ট বাস্তব ধরনের, ইংরেজিতে যাকে বলে রিয়েলিস্টিক।

এরকম একটি উদাহরণ দেখতে পারেন নিচের এই ভিডিওটি থেকে। ভিডিওটি দেওয়া আছে ওপেন এআই-এর ওয়েবসাইটেই। প্রম্পট বা নির্দেশনাটি ইংরেজিতে দেওয়া। বাংলা করলে দাঁড়ায়—

স্টাইলিশ এক নারী টোকিয়োর রাস্তা ধরে হেঁটে যাচ্ছে। এই রাস্তা নিয়ন আলোয় আলোকিত। অ্যানিমেটেড শহরের ছাপ আছে এতে। নারীটি লাল রঙের লম্বা জামা পরেছে, ওপরে চড়িয়েছে কালো লেদার জ্যাকেট। একটা কালো পার্স আছে তার সঙ্গে। চোখে সানগ্লাস ও ঠোঁটে লাল লিপিস্টিক। আত্মবিশ্বাসী ও ক্যাজুয়াল ভঙ্গিতে সে হাঁটছে। রাস্তাটা ভেজা, পানিতে প্রতিফলন হচ্ছে। ফলে একধরনের মিরর ইফেক্ট দেখা যাচ্ছে, ওদে নানা রঙের আলোর খেলা। আশপাশে অনেক পথচারী হেঁটে যাচ্ছে। (A stylish woman walks down a Tokyo street filled with warm glowing neon and animated city signage. She wears a black leather jacket, a long red dress, and black boots, and carries a black purse. She wears sunglasses and red lipstick. She walks confidently and casually. The street is damp and reflective, creating a mirror effect of the colorful lights. Many pedestrians walk about.)

লেখার দৈর্ঘ্য বেড়ে যাবে এরকম একাধিক প্রম্পটের উদাহরণ দিলে। তারচেয়ে প্রম্পটসহ কিছু ভিডিও দেখলেই বোঝা যাবে, সোরা কতটা কার্যকর।

প্রশ্ন হলো, এই কৃত্রিম বুদ্ধিমত্তা কীভাবে কাজ করে আসলে? ডাল-ই ৩, স্টেবলডিফিউশন ও মিডজার্নির মতোই সোরা একধরনের ডিফিউশন এআই মডেল। অর্থাৎ এটি স্থির ছবি তৈরির মাধ্যমে ভিডিও বানানো শুরু করে। তারপর নির্দেশনা অনুসারে ধীরে ধীরে ছবিটিকে রূপান্তর করে ভিডিওতে। তবে সোরার একটি বৈশিষ্ট্য হলো, এটি একই সঙ্গে একাধিক স্থির ছবি—ভিডিওর ভাষায় ‘ফ্রেম’ নিয়ে কাজ করতে পারে। ফলে ফ্রেমগুলো যখন গতিশীল হয় বা বদলে যায়, তখনও ফ্রেমের বস্তুগুলো—যেমন কোনো মানুষ বা ডলফিন—বদলে যায় না, একই থাকে। অর্থাৎ এই কৃত্রিম বুদ্ধিমত্তা যথেষ্ট স্থিতিশীল ও কার্যকর।

শুধু তাই নয়, ডিফিউশন মডেলের সঙ্গে ট্রান্সফরমার আর্কিটেকচারেরও মিশেল ঘটেছে সোরায়। সহজ করে বললে, এর ফলে ট্রান্সফরমার মডেল বা আর্কিটেকচার পুরো লে-আউট বা ফ্রেম তৈরি করতে পারে ভালোভাবে, আর ডিফিউশন মডেল ডিটেলস বা খুঁটিনাটি বিষয়গুলো তুলে আনতে পারে সুন্দরভাবে।

তবে এর একটা বড় সমস্যা হলো, বাস্তব দুনিয়ার সঙ্গে এটি এখনো পুরোপুরি খাপ খাইয়ে নিতে পারেনি। যেমন কার্যকারণ ও ফলাফল—অর্থাৎ একটা কাজ হলে এর ফলে আরেকটা ঘটনা ঘটবে, এই ক্রমটা ঠিক বুঝতে পারে না সোরা। এর উদাহরণ হলো, ট্রিগার টিপলে গুলি বের হয়। সোরা এই যৌক্তিক ক্রম বুঝতে পারে না বলে গুলি ট্রিগার চাপার আগেই বেরিয়ে যেতে দেখা যেতে পারে ভিডিওতে। নিচে এরকম একটি ভিডিও দেখতে পাবেন—দেখা যাচ্ছে বাস্কেটবলের জাল বিস্ফোরিত হওয়ার পরে আবার ঠিকঠাক! অথচ এমনটা হওয়ার কথা নয়। এরকম কিছু সমস্যা এখনো রয়ে গেছে এই কৃত্রিম বুদ্ধিমত্তায়।

এটি এখনো সবার জন্য উন্মুক্ত করে দেওয়া হয়নি। তবে বেটা টেস্ট করার জন্য অনেককে দেওয়া হচ্ছে। আর এর নিরাপত্তার বিষয়গুলো নিয়ে জোরদার পদক্ষেপ নিচ্ছে ওপেন এআই। রেড টিমারদের সুযোগ দেওয়া হচ্ছে এই কৃত্রিম বুদ্ধিমত্তা পরীক্ষা করে দেখতে। রেড টিমার মানে, যারা শত্রু হিসেবে এই বুদ্ধিমত্তার সমস্যা ও দুর্বলতাগুলো বের করার চেষ্টা করবেন। বাস্তবে হ্যাকার বা এ ধরনের কেউ আক্রমণ করে বা অন্যায় ব্যবহার করে কী ধরনের সুযোগ নিতে পারে, সেগুলোই তাঁরা বের করার চেষ্টা করবেন। পাশাপাশি সোরা দিয়ে বানানো ভিডিও শনাক্ত করার উপায় (প্রযুক্তির ভাষায়, ডিটেকশন ক্লাসিফায়ার) এবং মেটাডেটা (ভিডিও বানানোর বিস্তারিত তথ্য) যুক্ত করে দেওয়ার কথাও ভাবছে ওপেন এআই। যাঁরা ছবি নিয়ে কাজ করেন, তাঁরা হয়তো মেটাডেটার সঙ্গে পরিচিত। ছবিটি কে বানিয়েছে, এডিট করা হয়েছে কি না, তোলা ছবি হলে কোথায় তোলা হয়েছে, এডিটের সময় কী কী পরিবর্তন হয়েছে—এই সবই থাকে মেটাডেটায়।

এর মাধ্যমে কেউ যেন কাউকে হয়রানি করতে না পারেন বা ঘৃণা ছড়ানোর কাজে ব্যবহার করতে না পারেন, এ বিষয়গুলো নিয়ে ওপেন এআই প্রযুক্তিবিদ, নীতিনির্ধারক, শিল্পী ও শিক্ষকদের সঙ্গে কথা বলবে বলে জানিয়েছে।

সূত্র: ওপেনএআই ডটকম/সোরা