ঢাকা, বাংলাদেশ   শনিবার ২০ এপ্রিল ২০২৪, ৭ বৈশাখ ১৪৩১

এনামুল হক

শৈশব ছেড়ে সাবালকে ভয়েস কম্পিউটিং

প্রকাশিত: ০৩:৫৭, ২৪ জানুয়ারি ২০১৭

শৈশব ছেড়ে সাবালকে ভয়েস কম্পিউটিং

খ্যাতনামা ব্রিটিশ কল্প বিজ্ঞান লেখক আর্থার সি ক্লার্ক বলেছিলেন যে, যথেষ্ট মাত্রায় উন্নত যে কোন প্রযুক্তিকে ম্যাজিক থেকে পার্থক্য করা সম্ভব নয়। ভয়েস কম্পিউটিংয়ের দ্রুত উদীয়করণ প্রযুক্তি তার এই কথার সত্যতা বহন করে। যেমন, এ্যামাজন ইকোর কথাই বলা যাক। এটি একটি কণ্ঠস্বরচালিত সিলিন্ড্রিক্যাল কম্পিউটার যা বসা থাকে টেবিলের উপরে এবং আলেক্সা নামে ডাকলে জবাব দেয়, মিউজিক ট্র্যাক ও রেডিও স্টেশন চালু করে। কৌতুক বলতে পারে, সাধারণ, গতানুগতিক প্রশ্নের জবাব দেয় এবং স্মার্ট সাজসরঞ্জাম নিয়ন্ত্রণ করতে পারে। এবারের বড়দিনের আগে শতকরা প্রায় ৪৬ ভাগ মার্কিন পরিবারে এমন একটি সরঞ্জামের অস্তিত্ব লক্ষ্য করা গেছে। ভয়েস এ্যাসিস্ট্যান্টের বিস্তার ঘটছে স্মার্টফোনের ক্ষেত্রেও। এ্যাপলের সিরি সপ্তাহে দু’শ’ কোটিরও বেশি কমান্ডের জবাব দেয়। আর আমেরিকায় এ্যান্ড্রয়েড শক্তিচালিত হ্যান্ডসেটগুলোয় গুগলের শতকরা ২০ ভাগ অনুসন্ধান ভয়েস দ্বারা ইনপুট করা হয়। ই-মেইল ও টেক্সট মেসেজ ডিক্টেট করতে এখন যথেষ্ট নির্ভরযোগ্য রকমের কাজের যেখানে কথা বললেই কাজ হয় সেখানে টাইপ করার দরকার কি। এ এক বিরাট অগ্রগতি দৃশ্যত সহজ মনে হলেও ভয়েস বা কণ্ঠস্বরের ক্ষমতা রয়েছে কম্পিউটিংকে রূপান্তরিত করার। তার জন্য প্রয়োজন শুধু স্বাভাবিক পন্থায় মিথষ্ক্রিয়া লাগানো। কম্পিউটারের সঙ্গে কথা বলতে পারার ফলে অনেক কিছুর প্রয়োজন ফুরিয়ে গেছে। যেমন টাচ্্স্ক্রিন ও কী-বোর্ড। মোবাইল ফোন যেমন তারবিহীন প্রচলিত ফোনের চেয়ে বেশি কিছু, গাড়ি যেমন অস্ত্রবিহীন শকটের চেয়ে বেশি কিছু, তেমনি স্ক্রিন ও কী-বোর্ডবিহীন কম্পিউটারের কার্যকারিতা শক্তি ও সর্বব্যাপিতা এত বেশি যে লোকে তা কল্পনাও করতে পারে না। তবে ভয়েস বা কণ্ঠস্বর অন্যান্য ধরনের ইনপুট বা আউটপুটকে সম্পূর্ণ হটিয়ে দিয়ে সে স্থান দখল করে নেবে তা নয়। কখনও কখনও কথা বলার চেয়ে টাইপ করে মেশিনের সঙ্গে কথোপকথন করা অধিকতর সুবিধাজনক হতে পারে। শোনা যায়, এ্যামাজন এখন বিল্ট-ইন স্ক্রিনসহ ইকো ডিভাইস নিয়ে কাজ করছে। কিন্তু বাস্তব সত্য হলো চারপাশের প্রযুক্তির সঙ্গে মানুষের যত রকমের মিথষ্ক্রিয়া ঘটছে তার মধ্যে ভয়েস বা কণ্ঠস্বর নিশ্চিতভাবে ক্রমবর্ধমান অংশগ্রহণ করতে চলেছে। ওয়াশিং মেশিন থেকে শুরু করে কর্পোরেট কল সেন্টারগুলার ভার্চুয়াল এ্যাসিস্ট্যান্ট পর্যন্ত সবকিছুর ক্ষেত্রে এই কথা প্রযোজ্য। ওয়াশিং মেশিনও আজ আপনাকে বলে দেয় সে কাপড় ধোয়ার জন্য ঘৃণার কয়টি চক্র অবশিষ্ট আছে। তবে এই প্রযুক্তিকে পূর্ণ ক্ষমতায় পৌঁছাতে হলে আরও অনেক পথ পাড়ি দিতে হবে। প্রচুর কাঠখড় পোড়াতে হবে। এতে কোন সন্দেহ নেই। ভয়েস কম্পিউটিং আজ যে অবস্থায় এসে দাঁড়িয়েছে সেটাই তো অভাবনীয় ব্যাপার। তবে ভয়েস কম্পিউটিংয়ের আজকের এই অবস্থায় আসা তো একদিনে হঠাৎ করেও হয়নি। ধীরে ধীরে হয়েছে। প্রথমে বাস্তব জগতে না এলেও এসেছে কল্প বিজ্ঞানে। তারপর সেটাকে স্থান দেয়া হয়েছে ছায়াছবিতে। তেমনি একটি কল্প বিজ্ঞাননির্ভর ছায়াছবি হলো ‘২০০১ : এ স্পেস ওডিসি’। ওখানে এক কম্পিউটার আছে যার নাম হলো ৯০০০। হাল মানুষের মতো কথা বলতে পারে। তবে সেই কথা বলার ব্যাপারটা তো সব প্রোগ্রাম করা। যারা ছবিটি দেখেছেন তাদের নিশ্চয়ই মনে আছে যে মহাকাশযান থেকে নভোচারী ডেভ বাউম্যান একবার বাইরে বিচরণ করতে গিয়েছিলেন। ফিরে এসে ঢুকতে গিয়ে কম্পিউটার হালের দ্বারা বাধাগ্রস্ত হন। হাল হিমশীতল কণ্ঠে বলে ওঠে ‘আমি দুঃখিত ডেভ। এ আমি পারব না।’ হাল নভোচারী ডেভকে ফিরিয়ে দিয়েছিল এই আশঙ্কা থেকে অন্য কোন বুদ্ধিমান কম্পিউটার ডেভের পরিচয়। ১৯৬৮ সালে ছায়াছবিটি যখন মুক্তি পায় তখন মানুষের সঙ্গে কম্পিউটারের আলাপচারিতার সম্ভাবনা মানববাহী নভোযানের বৃহস্পতি গ্রহে যাওয়ার মতো সুদূরপরাহত ব্যাপার ছিল। তারপর থেকে মানব সমাজের অনেক অগ্রগতি ঘটেছে। মানুষ এমন মেশিন তৈরি করেছে যা কথা বলতে পারে এবং স্বাভাবিক কথার মতো শোনায় এমন কিছুতে সাড়াও দিতে পারে। তার পরও মেশিনের সঙ্গে যোগাযোগের ব্যাপারটা এখনও কঠিনই রয়ে গেছে। সৃজনশীল ও সত্যিকারের আলাপচারী কম্পিউটার যা কিনা অপ্রত্যাশিত পরিস্থিতিও সামাল দিতে সক্ষম তেমনটি আসতে এখনও অনেক দেরি। কৃত্রিম প্রযুক্তি নিয়ে যারা গবেষণা করছেন তাদের বুদ্ধিমান হলে, টার্মিনেটর বা রোজীর আবির্ভাবের সম্ভাবনা সম্পর্কে জিজ্ঞেস করলে তারা শুধু হাসি দিয়ে সাড়া দেন। ভাষা প্রযুক্তি গুটিকয়েক অতিমাত্রায় রুটিন ক্ষেত্র ছাড়া মানুষের স্থান দখল করার মতো ধারেকাছে এখনও পৌঁছায়নি বটে তথাপি এই প্রযুক্তিকে গুরুত্বসহকারে গ্রহণ করার মতো অবস্থায় পৌঁছেছে। শুধু মানুষের পক্ষেই করা সম্ভব এমন কিছু কৌতূহলোদ্দীপক কাজ করার ব্যাপারে অধিকতর সময় ব্যয় করতে এই প্রযুক্তি মানুষকে সাহায্য করতে প্রস্তুত। ছয় দশকের সাধনার পর মানুষের অনেক কর্মোদ্যোগের ফলাফলই হয়ত হতাশাব্যঞ্জক। তথাপি গত কয়েক বছরের চেষ্টায় যে সব ফলাফল অর্জিত হয়েছে সেগুলো প্রথম দিকের পথিকৃতের প্রত্যাশার অনেক কাছাকাছি এসে দাঁড়িয়েছে। কথা বা শব্দমালা চিনতে পারার ব্যাপারটা এক অসাধারণ লক্ষণীয় অগ্রগতি। মেশিনে অনুবাদের কাজটাও ভয়াবহ অবস্থা থেকে মোটামুটি চলনসই অবস্থায় এসে দাঁড়িয়েছে। অচিরেই তা সামান্য কিছু সম্পাদনার মধ্য দিয়ে উৎকর্ষ লাভ করবে বলে সঙ্গতভাবেই আশা করা যায়। এ্যাপলের সিরি, এ্যামাজনের আলেক্সা গুগলের গুগল নাউ ও মাইক্রোসফটের কর্টানার মতো কম্পিউটারাইজড পার্সোনাল এ্যাসিস্ট্যান্টরা এখন বিভিন্ন আঙ্গিকে সাজানো নানা ধরনের প্রশ্ন গ্রহণ করতে এবং শুনতে স্বাভাবিক লাগে এমন কণ্ঠে সেগুলোর সঠিক প্রয়োজনীয় জবাব ফিরিয়ে দিতে পারে। আলেক্সা তো ‘আমাকে একটা কৌতুক শোনাও’ এমন অনুরোধেরও জবাব দেয়। বলাবাহুল্য কম্পিউটারের রসবোধ নেই। এ্যাপল ২০১১ সালে যখন সিরি চালু করেছিল তখন এর ব্যবহারের ফলটা এতটা নৈরাশ্যজনক ছিল যে অনেকেই তা বাদ দিয়ে দেয়। স্মার্টফোন মালিকদের মাত্র প্রায় এক-তৃতীয়াংশ তাদের পার্সোনাল এ্যাসিস্ট্যান্টদের নিয়মিত ব্যবহার করে থাকে। যদিও এদের শতকরা ৯৫ জন কোন না কোন পর্যায়ে সেগুলোকে ব্যবহারের চেষ্টা করে শেষে ছেড়ে দিয়েছেন। এই হতোদ্যম হয়ে যাওয়া মানুষদের অনেকে হয়ত বুঝতেই পারছেন না তাদের কতখানি উন্নতি ঘটেছে। ওদিকে মানুষের বক্তব্য বা কথা চিনবার ক্ষেত্রে কম্পিউটারেরও যে কত বিশাল অগ্রগতি ঘটেছে তাও কল্পনা করা যায় না। কোন মানুষ যখন কথা বলে তার ফুসফুস দিয়ে সবেগে বায়ু বেরিয়ে আসে। এতে তার কণ্ঠের স্বরতন্ত্রগুলো কম্পিত হয়। তার পরিণতিতে বায়ু দিয়ে বৈশিষ্ট্যসূচক তরঙ্গধারা বেরিয়ে আসে। শব্দের বৈশিষ্ট্য কণ্ঠের স্বরতন্ত্রের বিশেষ করে ঠোঁট ও জিহ্বার বিন্যাসের ওপর নির্ভর করে এবং ধ্বনির স্বভাবসুলভ প্রকৃতিটা আসে কিছু ফ্রিকোয়েন্সিতে এনার্জির তুঙ্গে ওঠা থেকে। স্বরবর্ণগুলোর একটি নির্দিষ্ট ফ্রিকোয়েন্সি আছে যাকে বলে ফরম্যান্ট। একটি স্বরবর্ণে আরেকটি স্বরবর্ণের পার্থক্য টানার জন্য সাধারণত দুটো ফরম্যান্টই যথেষ্ট। দৃষ্টান্ত হিসেবে ইংরেজী ভাওয়াল শব্দ ক্লিন্সের প্রথম দুটি ফরম্যান্ট হচ্ছে প্রায় ৩শ’ কিলোহার্টজ ও ৩ হাজার কিলোহার্টজ। ব্যঞ্জনবর্ণগুলোরও তার নিজ নিজ বৈশিষ্ট্য আছে। নীতিগতভাবে শব্দের ওই প্রবাহকে ভাষা বা কথায় রূপ দেয়া সহজ। অন্যান্য ভাষা প্রযুক্তির মতো যেসব মেশিন ভাষা বা কথা চিনতে পারে সেগুলো আগে থেকে সংগৃহীত ড্যাটার ওপর প্রশিক্ষণপ্রাপ্ত। এই দৃষ্টান্তে ট্রেনিংয়ের কাজে ব্যবহৃত ড্যাটা হলো সাউন্ডের রেকর্ডিং যা টেক্সটের সঙ্গে প্রতিলিপি করে রাখা আছে। তার ফলে সফটওয়্যারের একই সঙ্গে দুটো জিনিস আছে। সাউন্ড ইনপুটও আছে। আবার টেক্সট ইনপুটও আছে। সফটওয়্যারকে শুধু যে কাজটা করতে হয়, তাহলো এই দুটোর মধ্যে মিল বা সমন্বয় করিয়ে দেয়া। ইংরেজীতে প্রায় ৪৪টি কোনিম বা ধ্বনিগুচ্ছ আছে। কোনিম হলো ভাষার ধ্বনি ব্যবস্থা গঠনকারী ইউনিট। পি এবং বি হলো দুই ভিন্ন ধ্বনিগুচ্ছ। কারণ এরা প্যাট ও ন্যাটের মতো শব্দাবলীর মধ্যে পার্থক্য রচনা করে। কম্পিউটার কোনিম বা ধ্বনিগুচ্ছের দ্বারা শব্দ চিনে থাকে। তবে কেউ বক্তৃতা করছে সে ক্ষেত্রে মেশিনের পক্ষে শব্দ চিনতে পারা কঠিন হয়। কারণ বক্তৃতার ক্ষেত্রে ধ্বনিগুচ্ছ এক এক করে উচ্চারিত হয় না। এটা সর্বক্ষণ অনন্ত প্রবাহের মতো ঘটে চলে। এর সীমানা খুঁজে পাওয়া সহজ নয়। তা ছাড়া বিষয়বস্তু অনুযায়ী কোনিমের মধ্যেও পার্থক্য থাকে। এক ব্যক্তির সঙ্গে অন্য ব্যক্তির গলার স্বর এবং উদারা, মুদারা ও তারায় পার্থক্যও দেখা যায়। প্রযুক্তি এসব সমস্যার অনেকগুলোই ধীরে ধীরে কাটিয়ে উঠেছে। তার ফলে সফটওয়্যার কথা বা বক্তব্য চিনতে পারার ক্ষেত্রে ভুলভ্রান্তির হার গত কয়েক বছর ধীরে ধীরে হ্রাস পেয়েছে। এখন ডি-৭ লার্নিং চালু হওয়ার কারণে আরও ব্যাপক পরিসরে কমেছে। মাইক্রোফোন উন্নততর ও সস্তা হয়েছে। সর্বব্যাপী ওয়্যারলেস ইন্টারনেটের উপস্থিতির কারণে স্টিচ রেকর্ডিং সহজেই কম্পিউটারে পাঠাবে না যার বিশ্লেষণ করে দেখার জন্য। এখন তো স্মার্টফোনেরও এই কাজটি করার জন্য যথেষ্ট শক্তিশালী কম্পিউটার রয়েছে। কম্পিউটারে ডিক্টেশন ব্যবস্থার অস্তিত্ব বেশ কয়েক বছর ধরেই রয়েছে। তবে এতদিন সেগুলো ছিল অনির্ভরযোগ্য এবং সুনির্দিষ্ট ব্যবহারকারীর কণ্ঠস্বর শেখার জন্য দীর্ঘ প্রশিক্ষণের প্রয়োজন হতো। এখন কম্পিউটার ট্রেনিং ছাড়াই প্রায় মেকারের কথা বা বক্তব্য নির্ভরতার সঙ্গে চিনতে পারার নতুন ক্ষমতা করায়ত্ত করেছে। এই নতুন ক্ষমতাই হলো ডিপ লার্নিং নামে এক কৃত্রিম বুদ্ধির কৌশলের ক্ষমতার সর্বশেষ বহির্প্রকাশ। কৃত্রিম বুদ্ধির কৌশল হলো এমন এক সফটওয়্যার ব্যবস্থা যা সাধারণত ইন্টারনেট থেকে বেছে নেয়া লাখ লাখ দৃষ্টান্ত ব্যবহারে ট্রেনিংপ্রাপ্ত। ডিপ লার্নিংয়ের বদৌলতে কম্পিউটার মেশিন এখন নির্ভুলভাবে প্রতিলিপিকরণে মানুষের প্রায় সক্ষমতা অর্জন করেছে। কম্পিউটারে করা অনুবাদের এখন দ্রুত উন্নতি হয়েছে। অনুবাদ দেখে সেগুলো আর আগের মতো রোবোটিক মনে হয় না বরং অধিকতর স্বাভাবিক বলে মনে হয়। স্বাভাবিক ভাষার কত রকমের রূপ আছে। সবগুলোর ক্ষেত্রে কাজ কারবারে কম্পিউটার এমন আগের তুলনায় ঢের বেশি উন্নত হয়ে উঠেছে। ডিপ লার্নিং বলতে যদিও বোঝায় যে কম্পিউটার মেশিন এখন কথা বা বক্তব্য আরও নির্ভরযোগ্যভাবে চিনতে বা বুঝতে পারে এবং বলতে পারে এমনভাবে যা অতটা আলঙ্কারিক মনে হয় না তথা ওগুলো এখনও ভাষার অর্থ বোঝে না। এটাই হলো সমস্যার সবচেয়ে জটিল দিক। ভয়েস কম্পিউটিংয়ের সত্যিকারের বিকাশ সাধন হতে হলে এই সমস্যা অবশ্যই কাটিয়ে উঠতে হবে। কম্পিউটারকে শুধু সহজ সরল ভয়েস কমান্ডে সাড়া দিলেই চলবে না। যেমনটি আজ বেশিরভাগ ক্ষেত্রে করা হচ্ছে, কোন কিছু নিয়ে সুসামঞ্জস্যপূর্ণ সংলাপ বজায় রাখার জন্য কম্পিউটারকে কনটেক্সট বুঝতেও সক্ষম হতে হবে। বিশ্ববিদ্যালয়ের শিক্ষকরা এবং ছোট-বড় কোম্পানিতে কর্মরত গবেষকরা এই সমস্যা নিয়ে কাজ করে চলেছেন। তারা তৈরি করছেন এমন বট যা মর্টগেজের ব্যাপারে পরামর্শদান থেকে শুরু করে ট্রাভেল বিষয়ক তথ্যাবলী সরবরাহ সম্পর্কিত অধিকতর জটিল বিষয় নিয়ে আরও বিস্তারিত সংলাপ চালিয়ে যেতে পারে। এ্যামাজন এমন বট উদ্ভাবনের ১০ লাখ ডলার পুরস্কার ঘোষণা করেছে যা সামঞ্জস্য রক্ষা করে নিবিড়ভাবে ২০ মিনিট ধরে সংলাপও চালিয়ে যেতে পারে। ভয়েস কম্পিউটিং কিভাবে বিকশিত হবে তা নির্ণয়ে ভোক্তা ও নিয়ন্ত্রকদেরও একটা ভূমিকা পালন করার আছে। বর্তমানের তুলনামূলক আদিরূপে এই প্রযুক্তির একটা উভয় সঙ্কট আছে। ভয়েস বা কণ্ঠস্বরচালিত ব্যবস্থা এখনই সবচেয়ে কার্যোপযোগী যখন সেগুলো পার্সোনালাইজড আকারে থাকে এবং তাদের ড্যাটার উৎসগুলোর ব্যাপক সান্নিধ্য লাভের সুযোগ দেয়া হয়। যেমনÑ ক্যালেন্ডার, ই-মেইল ও অন্যান্য স্পর্শকাতর তথ্য। এতে প্রাইভেন্সি লঙ্ঘিত হওয়ার ও নিরাপত্তা বিপন্ন হবার প্রশ্ন এসে যায়। ভয়েস কম্পিউটিং আরও বেশি জটিলতার জন্ম দিতে পারে। ভয়েস কন্ট্রোলের মধ্য রয়েছে কম্পিউটিংয়ের ভবিষ্যত। মুরসল অনুযায়ী প্রতি দু’বছরে কম্পিউটারের প্রসেসিং ক্ষমতা দ্বিগুণ হয়ে যায়। আজ আমাদের পকেট সুপার কম্পিউটারে এমন সব কাজ করা যাচ্ছে। এমনকি কথা বলেও কাজ করানো যাচ্ছে যা মাত্র কয়েক দশক আগে রুমের মতো সাইজের মেশিন নিয়ে ঘর্মাক্ত হয়ে ওঠা গবেষকরা কল্পনাও করতে পারতেন না। জনৈক বিশেষজ্ঞ মনে করছেন মোবাইল ফোন যেমন সবকিছু দিয়েছে তেমনি ভয়েস এক্টিভেটেডও। আর্টিফিশিয়াল ইন্টেলিজেন্সও প্রকতপক্ষে সবকিছু বলতে দিতে চলেছে। এই পরিবর্তনের ব্যাপারটা কোম্পানিগুলো বুঝতে পেরেছে আর পেরেছে বলেই তাদের পণ্যসামগ্রীতে ভয়েস ইন্টারফেস সহজে যোগ করছে। কৃত্রিম বুদ্ধির ক্ষেত্রে যতই অগ্রগতি ঘটবে ততই ভয়েস কম্পিউটিং অধিকাংশ পণ্যের ক্ষেত্রে একটা আদর্শ হয়ে দাঁড়াবে। ইকোনমিস্ট অবলম্বনে
×