
ছবি: সংগৃহীত
গুগলের এই বছরের আই/ও ডেভেলপার সম্মেলনে অসংখ্য এআই-ভিত্তিক ঘোষণার ভিড়ে একটি ছোট্ট ডেমো ছিল, যেটা মঞ্চে খুব বেশি জায়গা না পেলেও এখন এআই জগতের ভেতরে আলোচনার কেন্দ্রবিন্দু হয়ে উঠেছে।
এই মডেলের নাম জেমিনি ডিফিউশন — এটি গুগল ডিপমাইন্ডের তৈরি একটি পরীক্ষামূলক গবেষণা-ভিত্তিক ভাষা মডেল (LLM), যার গতি অভাবনীয়: প্রতি সেকেন্ডে ১,০০০ থেকে ২,০০০ টোকেন (টেক্সটের অংশবিশেষ) তৈরি করতে পারে। এটি জেমিনির এখন পর্যন্ত সবচেয়ে শক্তিশালী পাবলিক সংস্করণের চেয়েও ৪-৫ গুণ দ্রুত।
দ্রুত, দক্ষ এবং চমকপ্রদ
একটি সংক্ষিপ্ত ব্লগপোস্টে গুগল জানিয়েছে, এই গবেষণামূলক মডেলটি “আমাদের এখন পর্যন্ত দ্রুততম মডেলের তুলনায় উল্লেখযোগ্যভাবে দ্রুত কনটেন্ট জেনারেট করতে পারে, এবং কোডিং পারফরম্যান্সেও সমান দক্ষ।” যদিও এটি এখনো শুধু পরীক্ষামূলক পর্যায়ে আছে এবং এর জন্য আলাদা ওয়েটলিস্ট খুলেছে গুগল।
তবে প্রযুক্তি বিশ্লেষকরা বলছেন, যদি গুগল এটি শুধু গবেষণাগারের বাইরে এনে ব্যবহারযোগ্য করে তুলতে পারে, তবে এই মডেল সম্ভবত পুরো এআই যুদ্ধের ধারা বদলে দিতে পারে—বিশেষত গুগল, ওপেনএআই, মেটা, অ্যানথ্রোপিক ও চীনের আলিবাবা, ডিপসিকের মধ্যে চলা প্রতিযোগিতায়।
‘জুলস’ এবং কোডিং যুদ্ধ
এখনকার অন্যতম প্রধান যুদ্ধ হচ্ছে স্বয়ংক্রিয় কোডিং এজেন্ট তৈরির। জেমিনি ডিফিউশন যদি সবাইকে ব্যবহার করতে দেওয়া হয়, তাহলে গুগলের নতুন কোডিং এজেন্ট ‘জুলস’-এর জন্য এটি বিশাল সুবিধা হয়ে দাঁড়াবে।
তবে একটা প্রশ্ন থেকেই যায়: মডেলটি চালাতে কতখানি কম্পিউটিং পাওয়ার লাগবে? যেমন গাণিতিক বিশ্লেষণ বা কোড লেখা—যেসব ক্ষেত্রে প্রগতি ও সময় গুরুত্বপূর্ণ—সেখানে এই ধরনের ডিফিউশন মডেল হতে পারে আরও কার্যকর ও খরচ-সাশ্রয়ী।
গঠনগত দিক থেকে ডিফিউশন মডেল কীভাবে আলাদা?
জেমিনি ডিফিউশন তৈরি হয়েছে ডিফিউশন টেকনিক-এর মাধ্যমে, যেটি মূলত চিত্র তৈরি করার জনপ্রিয় টুলগুলো (যেমন DALL·E 2, স্টেবল ডিফিউশন) এর ভিত্তি।
এটি সাধারণ ট্রান্সফরমার-ভিত্তিক এলএলএমগুলোর (যেমন চ্যাটজিপিটি) থেকে আলাদা। ট্রান্সফরমার মডেল টেক্সট বানায় এক শব্দ এক শব্দ করে—বাম থেকে ডানে, একে একে। কোনো শব্দ একবার লেখা হলে, সে আর পেছনে গিয়ে সংশোধন করতে পারে না।
অন্যদিকে, ডিফিউশন মডেল একসাথে পুরো টেক্সটের একটা ‘গিবরিশ’ খসড়া তৈরি করে এবং তা বারবার রিফাইন করে অর্থবহ বাক্যে রূপান্তর করে। ফলে মডেলটি একসঙ্গে অনেক টোকেন প্রক্রিয়াজাত করতে পারে, যেটা গতি বাড়ায় অনেক গুণ।
গুগল ডিপমাইন্ডের প্রধান বিজ্ঞানী জ্যাক রে এক্সে (সাবেক টুইটার) লেখেন: “এটি এক ঐতিহাসিক মুহূর্ত। আগে সবসময় মনে হতো ডিফিউশন কখনোই ট্রান্সফরমারের মানে পৌঁছাবে না, কিন্তু এই মডেল সেই সীমা অতিক্রম করেছে।”
কোথায় দুর্বলতা?
ডিফিউশন মডেলগুলো এখনো কিছু সীমাবদ্ধতার মুখোমুখি। যেমন: তারা নির্দিষ্ট দৈর্ঘ্যের টেক্সটই তৈরি করতে পারে, বড় ধরনের প্রবন্ধ বা বহু প্যারাগ্রাফের গদ্য লিখতে গিয়ে প্রাকৃতিক প্রবাহ হারিয়ে ফেলে।
কিন্তু কোড লেখার ক্ষেত্রে, যেখানে যুক্তি ও সিনট্যাক্স বেশি গুরুত্বপূর্ণ, সেখানে গল্পের গঠন কম গুরুত্বপূর্ণ। এবং দ্রুততার কারণে এই মডেল ডেভেলপারদের কাছে আরও আকর্ষণীয় হয়ে উঠছে।
ভবিষ্যতের পথচিত্র?
স্ট্যানফোর্ড-এর কম্পিউটার সায়েন্স বিভাগের অধ্যাপক স্টেফানো আরমন, যিনি গত পাঁচ বছর ধরে ডিফিউশন নিয়ে কাজ করছেন, বলেন: “গুগলের প্রবেশ এই পদ্ধতির গুরুত্বকে বৈধতা দিয়েছে। কয়েক বছরের মধ্যেই হয়তো সব ‘ফ্রন্টিয়ার’ মডেলই হবে ডিফিউশন-ভিত্তিক।”
তবে কেউ কেউ সতর্কও করছেন। যেমন: AI2-এর নাথান ল্যামবার্ট বলেন, “জেমিনি ডিফিউশন এ পর্যন্ত দেখা সবচেয়ে বড় স্বীকৃতি হলেও, এখনও বিস্তারিত তথ্য প্রকাশ হয়নি। ফলে তুলনামূলক বিশ্লেষণ কঠিন।”
তবে প্রযুক্তি মহলে একটা ব্যাপার পরিষ্কার—এই মডেলকে ঘিরে তৈরি হওয়া উন্মাদনা নিছক 'ফোমো' নয়, বরং এআই প্রযুক্তির পরবর্তী প্রজন্মের অগ্রযাত্রার পূর্বাভাস।
এসএফ