অডিও নমুনা থেকে কৃত্রিম কণ্ঠস্বর তৈরির জন্য দ্বিতীয় প্রজন্মের কৃত্রিম বুদ্ধিমত্তাভিত্তিক স্পিচ মডেল তৈরি করেছে মাইক্রোসফট। বর্তমানে স্পিচ মডেলটির কার্যকারিতা পরীক্ষা করছে প্রতিষ্ঠানটি। কিন্তু নিজেদের তৈরি মডেলটিকে ‘অত্যন্ত ঝুঁকিপূর্ণ’ হিসেবে বিবেচনা করছে খোদ মাইক্রোসফটই।
কৃত্রিম কণ্ঠস্বর তৈরির এআই মডেলটি ‘ভ্যাল-ই স্পিচ’ মডেলের পরবর্তী সংস্করণ। ‘ভ্যাল-ই টু’ নামের মডেলটি আগের সংস্করণের তুলনায় উন্নত ও শক্তিশালী হওয়ায় যেকোনো ব্যক্তির ধারণ করা অডিও শুনে হুবহু কণ্ঠস্বর নকল করতে পারে। ফলে কৃত্রিম কণ্ঠস্বরটি মানুষের কণ্ঠস্বরের মতোই শোনা যায়। অর্থাৎ রোবটিক বা যান্ত্রিক আবহ পাওয়া যায় না।
মাইক্রোসফটের তথ্যমতে, ভ্যাল-ই টু মডেলটিতে সর্বশেষ প্রযুক্তির নিউরাল কোডেক ল্যাঙ্গুয়েজ ব্যবহার করা হয়েছে। এর ফলে এটি লিখিত বার্তা যেকোনো মানুষের কণ্ঠস্বরে বলতে পারে। এ ছাড়া নতুন মডেলটি কণ্ঠস্বর তৈরির সময় একই শব্দ বারবার ব্যবহার করে না। ফলে মানুষের কণ্ঠস্বরের মতোই মনে হয়। শুধু তা–ই নয়, বড় আকারের বাক্য শুনতেও শ্রুতিমধুর লাগে।
মডেলটির কার্যকারিতা পরীক্ষার সময় দেখা গেছে, ভ্যাল-ই টু মডেলটি অন্যান্য টেক্সট টু স্পিচ মডেলের তুলনায় ভালোভাবে শব্দ উচ্চারণ করতে পারে। দীর্ঘ বাক্যে কোথায় থামতে হবে, সেটিও ভালোভাবে করে দেখিয়েছে মডেলটি। এর ফলে মডেলটির কথা মানুষের মতোই মনে হয়। আর তাই এই মডেলের অপব্যবহারের ফলে বিভিন্ন ধরনের প্রতারণার ঘটনা ঘটতে পারে। এ কারণে মডেলটি উন্মুক্ত করতে বিলম্ব করছে মাইক্রোসফট।
সূত্র: টাইমস অব ইন্ডিয়া