ঢাকা, বাংলাদেশ   বুধবার ২৪ এপ্রিল ২০২৪, ১১ বৈশাখ ১৪৩১

মোস্তাফা জব্বার

একুশ শতক ॥ প্রযুক্তিতে বাংলা ভাষার সোনালি দিন

প্রকাশিত: ০৩:৪৪, ২৩ এপ্রিল ২০১৭

একুশ শতক ॥ প্রযুক্তিতে বাংলা ভাষার সোনালি দিন

॥ চতুর্থ পর্ব ॥ প্রায় ১৫৯ কোটি টাকার গৃহীত প্রকল্প দলিলে আরও বলা হয় যে, ১৬টি টুল উন্নয়ন করার ফলে বাংলা ব্যবহারকারীরা বিশ্বমানে বাংলা ব্যবহার করতে পারবে এবং বাংলা সিএলডিআর, আইপিএ, করপাস, কীবোর্ড ও ফন্ট প্রমিত হবে। কোন সন্দেহ নেই যে এই প্রকল্পটি বাংলার জন্য একটি মাইলফলক ও স্বপ্নের প্রকল্প। এটির বাস্তবায়ন যে বিশ্বের প্রযুক্তিগত সক্ষমতাসম্পন্ন ভাষাগুলোর কাতারে বাংলাকে দাঁড় করিয়ে দেবে সেই বিষয়ে কোন সন্দেহ নেই। হয়ত কোটি টাকার প্রশ্নটি হবে, প্রকল্পটি কতটা কতদিনে কিভাবে বাস্তবায়িত করা যাবে? ১) ভাষাংশ বা করপাস : ১৬টি টুলের মাঝে রয়েছে ভাষাংশ বা করপাস। এই ভাষাংশ যত সমৃদ্ধ হবে তথ্যপ্রযুক্তিতে বাংলার ব্যবহারও ততই সমৃদ্ধ হবে। এর ফলে বাংলা ভাষার শব্দভা-ার আরও বহুগুণ সমৃদ্ধ হবে। বানান শুদ্ধিকরণ, ব্যাকরণ শুদ্ধিকরণ, যান্ত্রিক অনুবাদ, আবেগ বিশ্লেষণসহ ১৬টি টুলের অনেক কাজ এর ওপরই নির্ভর করবে। প্রকল্পে আন্তর্জাতিক মান অনুসরণ করে এই করপাস তৈরি করার কথা বলা হয়েছে। এটি আমাদের বোঝা দরকার যে, ভাষাংশ বা করপাস চিহ্নিত না করাটা ডিজিটাল যুগে বাংলার অগ্রযাত্রাকে থামিয়ে দেবে। ভাষার সমৃদ্ধি ও তথ্যপ্রযুক্তির সকল সুযোগ-সুবিধা গ্রহণের জন্য করপাস ভা-ার গড়ে তোলা আবশ্যক। কার্যত ভাষাংশকে ভিত্তি করেই প্রকল্পের ১৬টি টুলের বেশির ভাগই গড়ে উঠবে। ইতোমধ্যে গুগল ভাষাংশ নিয়ে বেশকিছু কাজ করেছে যেটি স্বেচ্ছাসেবীভাবে করে তারা তাদের নিজেদের কাজে ব্যবহার করছে। তবে তাদের ভাষাংশটি অপ্রতুল। রোমান হরফের বিদ্যমান ৫২ কোটি ভাষাংশের তুলনায় একেবারেই নগণ্য। গুগল মাত্র কয়েক লাখ বাংলা ভাষাংশ গড়ে তুলতে পেরেছে। আমার জানা মতে সেটি ১৪ লাখের বেশি নয়। সেজন্য সর্বশক্তি দিয়ে আমাদের বাংলা ভাষাংশ গড়ে তুলতে হবে। অনুমোদিত প্রকল্পের বৃহত্তর অংশ এটি। পুরো প্রকল্প বরাদ্দের প্রায় এক-তৃতীয়াংশ এই খাতেই বরাদ্দ করা আছে। ২) বাংলা ওসিআর : যদিও এরই মাঝে বাংলা ওসিআর নিয়ে বেশ কিছু কাজ হয়েছে, তবুও এটি বাস্তবতা যে, এই উন্নয়নগুলো বাংলা ব্যবহারকারীদের তেমন কোন কাজে লাগে না। এটি অপ্রিয় সত্য যে কোন কোন ক্ষেত্রে অর্থের অপচয় হয়েছে। আবার কোন কোন ক্ষেত্রে এই কাজ করার জন্য পর্যাপ্ত অর্থ পাওয়া যায়নি। রাতারাতি যে এসব প্রযুক্তি কাজ করবে তেমনও নয়। রোমান ওসিআর তৈরি হতে যুগের পর যুগ সময় লেগেছে। বাংলায় কেবল অতি সাম্প্রতিককালে ওসিআর তৈরির প্রচেষ্টা নেয়া হয়েছে। প্রচেষ্টাগুলোর সবচেয়ে দুর্বল দিকগুলো হচ্ছে যে এগুলো সমন্বিতভাবে ধারাবাহিক কর্মপ্রচেষ্টা হিসেবে সামনে আগায়নি। বরং ওসিআর বিষয়ক সকল প্রকল্পই এখন থেমে আছে। অথচ ওসিআর কাজ করলে বাংলা ভাষার সবচেয়ে অগ্রগতি হবে যে, প্রাচীন বা বর্তমান কাগজে বা হাতের লেখায় সঞ্চিত রচনাকে ডিজিটাল উপাত্তে পরিণত করা সম্ভব হবে। হাতে লেখা সরকারের নথিপত্র থেকে শুরু করে পুথি বা জমির দলিল এর লিখিত রূপ পাওয়াটা আমরা সৌভাগ্যের বিষয় হিসেবে বিবেচনা করতে পারব। এছাড়া পাঠাগারকে ডিজিটাল করতে এর কোন বিকল্পের কথা ভাবা যায় না। সরকারী অফিস আদালতের নথিপত্র ডিজিটাল করতেও এটি একটি অপরিহার্য হাতিয়ার হতে পারে। কৃত্রিম বুদ্ধিমত্তার যুগে এসে অপটিক্যাল ক্যারেক্টার রিডারকে দক্ষ করা কঠিন হওয়া উচিত নয়। ৩) কথা থেকে লেখা ও লেখা থেকে কথা : ইংরেজীতে আমরা এই ব্যবস্থাকে টেক্সট টু স্পীচ ও স্পীচ টু টেক্সট বলে গণ্য করি। এর মানে দাঁড়াচ্ছে যে, এই টুলটির সহায়তায় আমরা লিখিত বাংলাকে শব্দে উচ্চারিত বাংলায় এবং মুখের কথাকে ডিজিটাল লেখায় পরিণত করতে পারব। এসব কাজেও আমাদের ছোটখাটো গবেষণা রয়েছে। কিন্তু কার্যকর কোন প্রযুক্তি আমাদের নেই। আমার ধারণা, এই কাজটিকে সমন্বিত করা বা গুছিয়ে নেয়া একটি বড় চ্যালেঞ্জ হবে। গুগল এই খাতেও বেশ কিছু কাজ করেছে। এটি একটি ভাল সিদ্ধান্ত হবে যে, যেটুকু কাজ যারাই করেছেন সেটুকু কাজকে ভিত্তি হিসেবে নিয়ে টুলটিকে আরও উন্নত করা যেতে পারে। আমার নিজের ধারণা, এই খাতে এখন আমরা কৃত্রিম বুদ্ধিমত্তার ব্যবহার করতে পারি। ৪) জাতীয় কীবোর্ড উন্নয়ন : বিডিএস ১৭৩৮ : ২০০৪ নামে নিবন্ধিত একটি জাতীয় কীবোর্ড সরকার প্রমিত করেছিল। বিজয় এর দুটি অক্ষর পরিবর্তন করে এই কীবোর্ডটিকে প্রমিত করা হয়। এটি চারস্তরের কীবোর্ড যা বর্তমানে ব্যবহারের অযোগ্য। অন্যদিকে এই কীবোর্ডটিতে বস্তুত বাংলা সকল বর্ণ লেখার বিজ্ঞানসম্মত উপায় নেই। বিশেষ করে পুরনো ও অপ্রচলিত বর্ণ এই কীবোর্ড দিয়ে লেখা যায় না। প্রকল্পে এই কীবোর্ডটিকে সর্বজনের ব্যবহারযোগ্য ও আরও উন্নত করার কথা বলা হয়েছে। এটি যদি না করা হয় তবে একদিকে রোমান হরফ দিয়ে বাংলা লেখার ব্যবস্থা প্রচলিত হবে, অন্যদিকে দেশটা কীবোর্ডের জঙ্গলে পরিণত হবে। ৫) স্টাইল গাইড : প্রকল্প দলিলে বলা হয়েছে যে, বাংলা ভাষার বিভিন্ন উচ্চারণ, লেখনভঙ্গি, আঞ্চলিক উচ্চারণ ইত্যাদি নানাভাবে বিস্তৃত হচ্ছে। এই অবস্থাতে যদি বাংলা স্টাইল গাইড প্রমিত না করা হয় তবে বাংলার সঙ্কট বাড়বে। প্রকল্পে সেজন্য স্টাইল গাইড তৈরির প্রস্তাব করা হয়েছে। ৬) বাংলা ফন্ট ইন্টারঅপারেবিলিটি : এটি লক্ষ্য করা গেছে যে, কম্পিউটারের বাংলা ফন্টসমূহ নানা ধরনের কোড ব্যবহার করে থাকে এবং একটি ফন্টের ডকুমেন্ট অন্য ফন্টে পাঠযোগ্য হয় না। এটি অনেকটা বিভ্রান্তি প্রসূত। আমাদের ব্যবহারকারীরা আসকি ও ইউনিকোডের পার্থক্য বোঝেন না। আমরা জানি না যে বাংলার জন্য আসকি কোডও আছে, ইউনিকোডও আছে। এমনকি আসকি কোডেরও প্রকারভেদ আছে। বিজয়ের ২০০৩ সংস্করণ ও তার পরের সংস্করণের কোড এক নয়। আবার বিজয়ের কোড ও পশ্চিমবঙ্গের বাংলা আসকি কোড এক নয়। বাংলাদেশে আসকি কোডের মান কার্যত বিজয়। কিন্তু সেটিরও দুটি ভিন্নতা মনে রাখতে হবে। বিজয় ২০০৩ ও তার পরের বিজয়ের কোডের পরিবর্তনটা বুঝতে হবে। বর্তমানে কনভার্টার ব্যবহার করে এসব সমস্যার সমাধান করা যায়। তবে প্রস্তাবিত এই টুলটির সহায়তায় সকল ফন্টকেই যাতে পাঠযোগ্য করা যায় এবং জটিলতা তৈরি না হয় সেই আশাবাদ আমাদের রয়েছে। ৭) সিএলডিআর : ইউনিকোড কর্তৃপক্ষ বিশ্বের ভাষাসমূহের কমন লোকাল ডাটা রিপজিটরি গড়ে তুলে থাকে। প্রতিটি ভাষা এজন্য ইউনিকোড কর্তৃপক্ষকে সিএলডিআর তৈরি করে জমা দিয়ে থাকে। বাংলায় এমন কিছু তৈরি করা হয়নি বা জমা দেয়া হয়নি। প্রকল্পে সিএলডিআর তৈরি করে তা ইউনিকোড কর্তৃপক্ষকে জমা দেবার কথা বলা হয়েছে। ইউনিকোড কর্তৃপক্ষের সঙ্গে কেবল সিএলডিআরই যুক্ত নয়, ইউনিকোডের মানকে বাংলার মানে পরিণত করার জন্য অনেক গবেষণা করারও প্রয়োজন রয়েছে। বিশেষ করে দাড়ি ও দুই দাড়ির ব্যবহার সম্পর্কে অনেক তথ্য যোগাড় করতে হবে। অন্যদিকে ইউনিকোডে বাংলা রেন্ডারিংয়ের ক্ষেত্রে দেবনাগরীকে অনুসরণ করার প্রবণতা রোধ করার জন্য বাংলার ব্যবহারকে গবেষণা দিয়ে প্রমাণ করতে হবে। ৮) বাংলা ব্যাকরণ ও বানান শুদ্ধিকরণ : যারা ইংরেজী চর্চা করেন তারা জানেন যে শব্দ ও বাক্যকে শুদ্ধ করে উপস্থাপন করার জন্য কম্পিউটার দারুণভাবে ব্যবহারকারীকে সহায়তা করে থাকে। স্পেল বা গ্রামার চেকার এজন্য ব্যাপকভাবে ব্যবহৃত একটি টুল। কিন্তু বাংলায় আমরা সেই সুযোগটা পাই না। ব্যাকরণ বা বানান শুদ্ধ করার উপযুক্ত সমাধান এখনও আমাদের হাতে নেই। প্রকল্পে সেজন্য বাংলা বানান ও ব্যাকরণ শুদ্ধিকরণ উন্নয়ন করার সিদ্ধান্ত নেয়া হয়েছে। ৯) যান্ত্রিক অনুবাদ : বাংলা ভাষায় উচ্চতর লেখাপড়া না করার বা বাংলাকে সর্বত্র প্রচলন করার বিষয়ে সবচেয়ে বড় সমস্যাটির নাম অনুবাদ। প্রকল্পে এমন টুলস বা উন্নয়নের কথা বলা হয়েছে যার সহায়তায় বাংলার সঙ্গে দুনিয়ার অন্য ভাষাগুলোতে রূপান্তরের বহুমুখী কাজটি সম্পন্ন করা যাবে। বর্তমানে গুগলের অনুবাদক সফটওয়্যার রয়েছে। তবে সেটি মারাত্মকভাবে ত্রুটিপূর্ণ। প্রকল্পের আওতায় একটি ত্রুটিহীন সফটওয়্যার উদ্ভাবন করা হলে আমরা বাংলা ভাষার এক নতুন দিগন্তে প্রবেশ করব। যেমনি করে বাংলা সাহিত্য দুনিয়ার অন্য ভাষায় অনুবাদ হবে, তেমনি করে দুনিয়ার অন্য ভাষাসমূহের সম্পদ আমরা বাংলায় পেতে পারব। ১০) স্ক্রিন রিডার : আমরা সাধারণ মানুষ চোখে দেখি বলে পড়তে পারি। কিন্তু ভিন্নভাবে সক্ষম মানুষদের জন্য দৃশ্যমান মানুষকে সাউন্ডে এবং বিবরণের মাধ্যমে প্রকাশ করে দিতে হয়। কম্পিউটারের পর্দাকে পাঠ করার এই ব্যবস্থা ইংরেজীতে রয়েছে। বাংলাতেও এই ব্যবস্থা প্রচলন করার জন্য এই প্রকল্পে ব্যবস্থা রাখা হয়েছে। এই টুলটি বিশেষত আমাদের দৃষ্টিপ্রতিবন্ধী মানুষদের ব্যাপকভাবে সহায়তা করবে। ১১) প্রতিবন্ধীদের সফটওয়্যার : প্রকল্পে প্রতিবন্ধীরা যাতে তথ্যপ্রযুক্তিতে আরও সহজে বাংলা ব্যবহার করতে পারে তার জন্য আরও কিছু সফটওয়্যার উন্নয়ন করার সিদ্ধান্ত নেয়া হয়েছে। এর অর্থ হচ্ছে কেবলমাত্র দৃষ্টি প্রতিবন্ধীদের জন্য স্ক্রিন রিডার সফটওয়্যার নয়, অটিস্টিক মানুষদের জন্য আরও ভিন্ন ধরনের সফটওয়্যার তৈরি করতে হবে। যদিও এই টুলসগুলোকে সরাসরি চিহ্নিত করা হয়নি, তথাপি আমরা যারা কথা বলতে পারি না তাদের জন্য ডিজিটাল ইশারা ভাষা উন্নয়ন করতে পারি। ইশারা ভাষার প্রমিতকরণ একটি বড় কাজ হতে পারে। অন্যদিকে দৃষ্টি প্রতিবন্ধীদের জন্য এমন সব যন্ত্র উদ্ভাবন করতে পারি যা তাদের জীবনযাপন বা চলার পথে বাংলা ভাষায় তথ্য উপাত্ত বা নির্দেশনা দিতে পারে। কৃত্রিম বুদ্ধিমত্তাসম্পন্ন সাদা ছড়ি বা অন্যান্য ধরনের যন্ত্রপাতি উদ্ভাবনের বিষয়ে ভাবা যেতে পারে। ১২) বাংলা আবেগ বিশ্লেষণ সফটওয়্যার উন্নয়ন : এই প্রকল্পে বাংলা ভাষার আবেগ বিশ্লেষণ করার সফটওয়্যার উন্নয়নের প্রস্তাবনা রয়েছে। আমি নিজে অবশ্যই বুঝি না কাজটির মূল লক্ষ্য কি? তবে এটি বুঝতে পারি যে কৃত্রিম বুদ্ধিমত্তা প্রয়োগ করে ভাষা ব্যবহারকারীদের আবেগ ব্যাখ্যা করার জন্য টুলস তৈরি করা এই প্রকল্পের একটি লক্ষ্য হতে পারে। ১৩) বহুভাষিক সার্ভিস প্লাটফরম : বাংলা ল্যাঙ্গুয়েজ প্রসেসিং টুল গড়ে তুলে তার সহায়তায় বহুভাষিক উপাত্ত ব্যবহারের জন্য টুল তৈরি করা হবে এই প্রকল্পের অধীনে। ১৪) সাইট অনুবাদ : সরকারের ডিজিটাল রূপান্তরের একটি প্রবণতা হচ্ছে রোমান হরফে বা ইংরেজীতে ওয়েবসাইট তৈরি করা। সেইসব সাইটকে বাংলায় রূপান্তর করা দরকার। এছাড়াও বাংলার জ্ঞানভা-ারকে সমৃদ্ধ করার জন্য বহুল ব্যবহৃত ওয়েবসাইটকে বাংলায় অনুবাদ করা হবে এই প্রকল্পের আওতায়। ১৫) উপজাতীয় কীবোর্ড : এই প্রকল্পের আওতায় উপজাতীয় ভাষাসমূহের জন্য প্রমিত কীবোর্ড গড়ে তোলা হবে। বাংলার জন্য একটি প্রমিত কীবোর্ড প্রমিত হলে সেটির ভিত্তিতে বাংলাদেশে প্রচলিত ক্ষুদ্র নৃগোষ্ঠীর ভাষাসমূহের কীবোর্ড ও সফটওয়্যার এবং ফন্ট তৈরি করা যেতে পারে। এই প্রকল্পে এমন টুলস তৈরি করা যেতে পারে যার সহায়তায় উপজাতীয়রা তাদের মাতৃভাষার সঙ্গে বাংলাকে সংযুক্ত করতে পারে। উপজাতীয় ভাষা থেকে বাংলায় এবং বাংলা থেকে উপজাতীয় ভাষায় যান্ত্রিক অনুবাদও এর আওতায় আসতে পারে। উপজাতীয় ভাষাসমূহের জন্য ফন্ট ডিজাইন, বানান শুদ্ধিকরণসহ অন্যান্য প্রযুক্তিও উদ্ভাবন করা যেতে পারে। ১৬) ধ্বনিতাত্ত্বিক ফন্ট : বিশ্বমান অনুসরণ করে বাংলার ধ্বনিতাত্ত্বিক ফন্ট তৈরি করা হবে এই প্রকল্পের আওতায়। যদিও বাংলায় এ ধরনের ফন্টের কাজ কিছুটা হয়েছে তথাপি এটিকে আরও উন্নত করার জন্য প্রচুর কাজ করতে হবে। এই টুলসগুলোর কথা বলা হলেও বস্তুত আরও অনেক বিষয় এর সঙ্গে যুক্ত হতে পারে এবং আমরা এই প্রকল্প বাস্তবায়নের বিভিন্ন বিষয় নিয়েও এখানে আলোচনা করতে পারি। (সামনের সপ্তাহে সমাপ্ত) ঢাকা, ২১ এপ্রিল, ১৭ লেখক : তথ্যপ্রযুক্তিবিদ, দেশের প্রথম ডিজিটাল নিউজ সার্ভিস আবাস-এর চেয়ারম্যান- সাংবাদিক, বিজয় কীবোর্ড ও সফটওয়্যার এবং ডিজিটাল বাংলাদেশ ধারণা ও কর্মসূচীর প্রণেতা ॥ ই-মেইল : সঁংঃধভধলধননধৎ@মসধরষ.পড়স, ওয়েবপেজ : িি.িনরলড়ুবশঁংযব.হবঃ
×