টেক্সট থেকে ভিডিও বানাবে সোরা এআই

টেক্সট থেকে শুধু ছবি নয়, এআই দিয়ে বানানো যাবে ভিডিও! নতুন এই চমক নিয়ে আসছে চ্যাটজিপিটি-খ্যাত ওপেন এআইয়ের নতুন কৃত্রিম বুদ্ধিমত্তা সোরা এআই। কীভাবে কাজ করে এটি? কী ধরনের ভিডিও বানাতে পারে?

উচ্ছ্বাস তৌসিফ

সহসম্পাদক, বিজ্ঞানচিন্তা

সোরা এআই দিয়ে বানানো একটি ভিডিওর ফ্রেম, ডলফিন সাইকেল চালাচ্ছে

কৃত্রিম বুদ্ধিমত্তার জগতে ওপেন এআই এখন পরিচিত নাম। চ্যাটজিপিটি বাজারে আসার পরপর পুরো প্রযুক্তি জগৎ বদলে গেছে। গুগলের মতো বড় প্রতিষ্ঠানও নড়েচড়ে বসতে বাধ্য হয়েছে। এবার সেই ওপেন এআই আনতে চলেছে নতুন চমক। এই চমকের নাম ‘সোরা’। নতুন এই কৃত্রিম বুদ্ধিমত্তা টেক্সট বা লেখা থেকেই তৈরি করে দিতে পারে ভিডিও।

সোরা নামের এই টেক্সট-টু-ভিডিও এআই মূলত একধরনের জেনারেটিভ এআই মডেল। অর্থাৎ চ্যাটজিপিটির মতোই এতে আপনি একটি টেক্সট বা কথা লিখে নির্দেশ (প্রম্পট) দিতে পারবেন। সে অনুসারে ভিডিও বানিয়ে দেবে এই কৃত্রিম বুদ্ধিমত্তা। শুধু ভিডিও-ই নয়, এটি বানাতে পারে অ্যানিমেশনও। এবং সেগুলো সবই যথেষ্ট বাস্তব ধরনের, ইংরেজিতে যাকে বলে রিয়েলিস্টিক।

এরকম একটি উদাহরণ দেখতে পারেন নিচের এই ভিডিওটি থেকে। ভিডিওটি দেওয়া আছে ওপেন এআই-এর ওয়েবসাইটেই। প্রম্পট বা নির্দেশনাটি ইংরেজিতে দেওয়া। বাংলা করলে দাঁড়ায়—

স্টাইলিশ এক নারী টোকিয়োর রাস্তা ধরে হেঁটে যাচ্ছে। এই রাস্তা নিয়ন আলোয় আলোকিত। অ্যানিমেটেড শহরের ছাপ আছে এতে। নারীটি লাল রঙের লম্বা জামা পরেছে, ওপরে চড়িয়েছে কালো লেদার জ্যাকেট। একটা কালো পার্স আছে তার সঙ্গে। চোখে সানগ্লাস ও ঠোঁটে লাল লিপিস্টিক। আত্মবিশ্বাসী ও ক্যাজুয়াল ভঙ্গিতে সে হাঁটছে। রাস্তাটা ভেজা, পানিতে প্রতিফলন হচ্ছে। ফলে একধরনের মিরর ইফেক্ট দেখা যাচ্ছে, ওদে নানা রঙের আলোর খেলা। আশপাশে অনেক পথচারী হেঁটে যাচ্ছে। (A stylish woman walks down a Tokyo street filled with warm glowing neon and animated city signage. She wears a black leather jacket, a long red dress, and black boots, and carries a black purse. She wears sunglasses and red lipstick. She walks confidently and casually. The street is damp and reflective, creating a mirror effect of the colorful lights. Many pedestrians walk about.)

লেখার দৈর্ঘ্য বেড়ে যাবে এরকম একাধিক প্রম্পটের উদাহরণ দিলে। তারচেয়ে প্রম্পটসহ কিছু ভিডিও দেখলেই বোঝা যাবে, সোরা কতটা কার্যকর।

প্রশ্ন হলো, এই কৃত্রিম বুদ্ধিমত্তা কীভাবে কাজ করে আসলে? ডাল-ই ৩, স্টেবলডিফিউশন ও মিডজার্নির মতোই সোরা একধরনের ডিফিউশন এআই মডেল। অর্থাৎ এটি স্থির ছবি তৈরির মাধ্যমে ভিডিও বানানো শুরু করে। তারপর নির্দেশনা অনুসারে ধীরে ধীরে ছবিটিকে রূপান্তর করে ভিডিওতে। তবে সোরার একটি বৈশিষ্ট্য হলো, এটি একই সঙ্গে একাধিক স্থির ছবি—ভিডিওর ভাষায় ‘ফ্রেম’ নিয়ে কাজ করতে পারে। ফলে ফ্রেমগুলো যখন গতিশীল হয় বা বদলে যায়, তখনও ফ্রেমের বস্তুগুলো—যেমন কোনো মানুষ বা ডলফিন—বদলে যায় না, একই থাকে। অর্থাৎ এই কৃত্রিম বুদ্ধিমত্তা যথেষ্ট স্থিতিশীল ও কার্যকর।

শুধু তাই নয়, ডিফিউশন মডেলের সঙ্গে ট্রান্সফরমার আর্কিটেকচারেরও মিশেল ঘটেছে সোরায়। সহজ করে বললে, এর ফলে ট্রান্সফরমার মডেল বা আর্কিটেকচার পুরো লে-আউট বা ফ্রেম তৈরি করতে পারে ভালোভাবে, আর ডিফিউশন মডেল ডিটেলস বা খুঁটিনাটি বিষয়গুলো তুলে আনতে পারে সুন্দরভাবে।

তবে এর একটা বড় সমস্যা হলো, বাস্তব দুনিয়ার সঙ্গে এটি এখনো পুরোপুরি খাপ খাইয়ে নিতে পারেনি। যেমন কার্যকারণ ও ফলাফল—অর্থাৎ একটা কাজ হলে এর ফলে আরেকটা ঘটনা ঘটবে, এই ক্রমটা ঠিক বুঝতে পারে না সোরা। এর উদাহরণ হলো, ট্রিগার টিপলে গুলি বের হয়। সোরা এই যৌক্তিক ক্রম বুঝতে পারে না বলে গুলি ট্রিগার চাপার আগেই বেরিয়ে যেতে দেখা যেতে পারে ভিডিওতে। নিচে এরকম একটি ভিডিও দেখতে পাবেন—দেখা যাচ্ছে বাস্কেটবলের জাল বিস্ফোরিত হওয়ার পরে আবার ঠিকঠাক! অথচ এমনটা হওয়ার কথা নয়। এরকম কিছু সমস্যা এখনো রয়ে গেছে এই কৃত্রিম বুদ্ধিমত্তায়।

এটি এখনো সবার জন্য উন্মুক্ত করে দেওয়া হয়নি। তবে বেটা টেস্ট করার জন্য অনেককে দেওয়া হচ্ছে। আর এর নিরাপত্তার বিষয়গুলো নিয়ে জোরদার পদক্ষেপ নিচ্ছে ওপেন এআই। রেড টিমারদের সুযোগ দেওয়া হচ্ছে এই কৃত্রিম বুদ্ধিমত্তা পরীক্ষা করে দেখতে। রেড টিমার মানে, যারা শত্রু হিসেবে এই বুদ্ধিমত্তার সমস্যা ও দুর্বলতাগুলো বের করার চেষ্টা করবেন। বাস্তবে হ্যাকার বা এ ধরনের কেউ আক্রমণ করে বা অন্যায় ব্যবহার করে কী ধরনের সুযোগ নিতে পারে, সেগুলোই তাঁরা বের করার চেষ্টা করবেন। পাশাপাশি সোরা দিয়ে বানানো ভিডিও শনাক্ত করার উপায় (প্রযুক্তির ভাষায়, ডিটেকশন ক্লাসিফায়ার) এবং মেটাডেটা (ভিডিও বানানোর বিস্তারিত তথ্য) যুক্ত করে দেওয়ার কথাও ভাবছে ওপেন এআই। যাঁরা ছবি নিয়ে কাজ করেন, তাঁরা হয়তো মেটাডেটার সঙ্গে পরিচিত। ছবিটি কে বানিয়েছে, এডিট করা হয়েছে কি না, তোলা ছবি হলে কোথায় তোলা হয়েছে, এডিটের সময় কী কী পরিবর্তন হয়েছে—এই সবই থাকে মেটাডেটায়।

এর মাধ্যমে কেউ যেন কাউকে হয়রানি করতে না পারেন বা ঘৃণা ছড়ানোর কাজে ব্যবহার করতে না পারেন, এ বিষয়গুলো নিয়ে ওপেন এআই প্রযুক্তিবিদ, নীতিনির্ধারক, শিল্পী ও শিক্ষকদের সঙ্গে কথা বলবে বলে জানিয়েছে।

সূত্র: ওপেনএআই ডটকম/সোরা

প্রযুক্তি থেকে আরও পড়ুন