ইন্টারনেট আর্কাইভ: এক ট্রিলিয়ন ওয়েবসাইটের ডিজিটাল জাদুঘর

ডিজিটাল বিস্মৃতির হাত থেকে ইন্টারনেটকে বাঁচাচ্ছে ইন্টারনেট আর্কাইভছবি: ইন্টারনেট আর্কাইভ ব্লগ

অনলাইনের জগৎটা অনেকটা বালির ওপর লেখা নাম বা আঁকিবুঁকির মতো। সাগরের একটা ঢেউ এসে সব মুছে দেয়। এই বিশাল ডিজিটাল দুনিয়ায় কোনো কিছুই চিরস্থায়ী নয়। সার্ভার ক্র্যাশ করা, ডোমেইন মেয়াদোত্তীর্ণ হওয়া বা হ্যাকারদের হামলায় যেকোনো মুহূর্তে হারিয়ে যেতে পারে আমাদের প্রিয় কোনো ওয়েবসাইট, ছবি বা স্মৃতি। ঠিক যেমন ২০১৯ সালে মাইস্পেস সার্ভার বদলানোর সময় ভুল করে ২০০৩ থেকে ২০১৫ সালের মধ্যে আপলোড করা প্রায় ৫ কোটি গান চিরতরে মুছে ফেলেছিল! ১৪০ লাখ শিল্পীর সেই গানগুলো আর কখনোই ফিরে পাওয়া যাবে না।

কিন্তু এই ডিজিটাল বিস্মৃতির হাত থেকে ইন্টারনেটকে বাঁচাতে বুক চিতিয়ে লড়ছে একটি প্রতিষ্ঠান—ইন্টারনেট আর্কাইভ। সম্প্রতি তারা এক অবিশ্বাস্য মাইলফলক স্পর্শ করেছে। প্রায় ৩০ বছরের অক্লান্ত পরিশ্রমের পর এই অলাভজনক সংস্থাটি তাদের সংগ্রহশালায় ১ ট্রিলিয়ন বা ১ লাখ কোটি ইউআরএল সংরক্ষণ করেছে!

কেন এটি এত গুরুত্বপূর্ণ

১৯৯৬ সালে ব্রুউস্টার কেল সান ফ্রান্সিসকোতে এই আর্কাইভ প্রতিষ্ঠা করেন। তাঁদের উদ্দেশ্য ছিল ইন্টারনেটের পরিবর্তনের একটি স্থায়ী রেকর্ড রাখা। ইন্টারনেট আর্কাইভের বিখ্যাত সেবার নাম ওয়েব্যাক মেশিন। এর মাধ্যমে আপনি কোনো ওয়েবসাইটের ১০ বা ২০ বছর আগের চেহারা দেখতে পারেন।

ইন্টারনেট আর্কাইভের প্রতিষ্ঠাতা ব্রুউস্টার কেল
ছবি: আমেরিকান লাইব্রেরিজ ম্যাগাজিন

আজ থেকে ২০ বছর আগে প্রথম আলো বা বিবিসি বাংলার ওয়েবসাইট দেখতে কেমন ছিল? কিংবা আপনার প্রিয় কোনো ব্লগ, যা এখন আর অস্তিত্ব নেই, সেটি দেখতে কেমন ছিল? ওয়েব্যাক মেশিন ঠিক টাইম মেশিনের মতোই আপনাকে সেই অতীতে নিয়ে যেতে পারে। এটি গবেষক, সাংবাদিক এবং সাধারণ মানুষের জন্য এক অমূল্য রত্নভাণ্ডার।

আরও পড়ুন
১৯৯৬ সালে ব্রুউস্টার কেল সান ফ্রান্সিসকোতে এই ইন্টারনেট আর্কাইভ প্রতিষ্ঠা করেন। তাঁদের উদ্দেশ্য ছিল ইন্টারনেটের পরিবর্তনের একটি স্থায়ী রেকর্ড রাখা।

বিশাল এক ভাণ্ডার

ইন্টারনেট আর্কাইভের সংগ্রহশালায় শুধু ওয়েবসাইটই নয়, আরও অনেক কিছু আছে। তাদের ডিজিটাল লাইব্রেরিতে এখন পর্যন্ত সংরক্ষিত আছে ১ লাখ কোটি ওয়েব পেজ। আছে ৪ কোটি ১০ লাখ বই ও টেক্সট ডকুমেন্ট। ১ কোটি ৫০ লাখ অডিও রেকর্ডিংয়ের মধ্যে ২ লাখ ৫০ হাজার আছে লাইভ কনসার্ট। ১ কোটির বেশি ভিডিও আছে। আরও আছে ৪৪ লাখ ছবি। ১০ লাখের বেশি সফটওয়্যার প্রোগ্রাম।

ইন্টারনেট আর্কাইভের ডিজিটাল লাইব্রেরিতে এখন পর্যন্ত সংরক্ষিত আছে ১ লাখ কোটি ওয়েব পেজ
ছবি: সিনেম গোরুচু / বেটার ইমেজ অব এআই ডট অর্গ

সব মিলিয়ে তাদের কাছে এখন প্রায় ১ লাখ টেরাবাইট বা ১০০ পেটাবাইট ডেটা জমা আছে! সহজ করে বললে, বর্তমানে বাজারে থাকা সবচেয়ে বেশি মেমোরির ৫০ হাজার আইফোন দিয়েও এই বিশাল তথ্য রাখা সম্ভব নয়। প্রতিদিন গড়ে প্রায় ৫০ কোটি নতুন ওয়েব পেজ এই আর্কাইভে যুক্ত হচ্ছে।

আরও পড়ুন
ইন্টারনেট আর্কাইভের ডিজিটাল লাইব্রেরিতে সংরক্ষিত ১ কোটি ৫০ লাখ অডিও রেকর্ডিংয়ের মধ্যে ২ লাখ ৫০ হাজার আছে লাইভ কনসার্ট। ১ কোটির বেশি ভিডিও আছে। আরও আছে ৪৪ লাখ ছবি।

চ্যালেঞ্জের মুখে ডিজিটাল লাইব্রেরি

তবে এই মহৎ কাজটি দিন দিন কঠিন হয়ে পড়ছে। কৃত্রিম বুদ্ধিমত্তার উত্থানের ফলে বড় বড় প্রযুক্তি কোম্পানিগুলো তাদের এআই মডেলকে শেখানোর জন্য ইন্টারনেটের সব তথ্য খুঁজছে। ফলে নিউইয়র্ক টাইমস, দ্য গার্ডিয়ান বা ইউএসএ টুডের মতো বড় বড় মিডিয়া কোম্পানিগুলো তাদের কনটেন্ট বা লেখাগুলোকে এআইয়ের হাত থেকে বাঁচাতে এখন ইন্টারনেট আর্কাইভের মতো বটগুলোকে ব্লক করে দিচ্ছে। কপিরাইট জটিলতায় পড়ে আর্কাইভের কাজ এখন আগের চেয়ে অনেক বেশি চ্যালেঞ্জিং।

হয়তো খুব শিগগিরই ইন্টারনেট আর্কাইভ তাদের ২ ট্রিলিয়ন ওয়েবসাইটের মাইলফলকও ছুঁয়ে ফেলবে!
ছবি: ইন্টারনেট আর্কাইভ / উইকিপিডিয়া

তবুও আশা করা যায়, সব আইনি জটিলতা কাটিয়ে ইন্টারনেট আর্কাইভ টিকে থাকবে। কারণ মানব ইতিহাসের সবচেয়ে ভঙ্গুর কিন্তু গুরুত্বপূর্ণ এই ডিজিটাল ইকোসিস্টেমকে বাঁচিয়ে রাখার জন্য এর কোনো বিকল্প নেই। হয়তো খুব শিগগিরই তারা ২ ট্রিলিয়ন ওয়েবসাইটের মাইলফলকও ছুঁয়ে ফেলবে!

লেখক: ফ্রন্টেন্ড ডেভলপার, সফটভেঞ্চ

সূত্র: পপুলার সায়েন্স এবং ইন্টারনেট আর্কাইভ ব্লগ

আরও পড়ুন