মাইক্রোসফটের তৈরি কৃত্রিম কণ্ঠস্বর তৈরির এআই মডেল ‘অত্যন্ত ঝুঁকিপূর্ণ’, কেন

কৃত্রিম কণ্ঠস্বর তৈরির নতুন এআই মডেল তৈরি করছে মাইক্রোসফটরয়টার্স

অডিও নমুনা থেকে কৃত্রিম কণ্ঠস্বর তৈরির জন্য দ্বিতীয় প্রজন্মের কৃত্রিম বুদ্ধিমত্তাভিত্তিক স্পিচ মডেল তৈরি করেছে মাইক্রোসফট। বর্তমানে স্পিচ মডেলটির কার্যকারিতা পরীক্ষা করছে প্রতিষ্ঠানটি। কিন্তু নিজেদের তৈরি মডেলটিকে ‘অত্যন্ত ঝুঁকিপূর্ণ’ হিসেবে বিবেচনা করছে খোদ মাইক্রোসফটই।

কৃত্রিম কণ্ঠস্বর তৈরির এআই মডেলটি ‘ভ্যাল-ই স্পিচ’ মডেলের পরবর্তী সংস্করণ। ‘ভ্যাল-ই টু’ নামের মডেলটি আগের সংস্করণের তুলনায় উন্নত ও শক্তিশালী হওয়ায় যেকোনো ব্যক্তির ধারণ করা অডিও শুনে হুবহু কণ্ঠস্বর নকল করতে পারে। ফলে কৃত্রিম কণ্ঠস্বরটি মানুষের কণ্ঠস্বরের মতোই শোনা যায়। অর্থাৎ রোবটিক বা যান্ত্রিক আবহ পাওয়া যায় না।

মাইক্রোসফটের তথ্যমতে, ভ্যাল-ই টু মডেলটিতে সর্বশেষ প্রযুক্তির নিউরাল কোডেক ল্যাঙ্গুয়েজ ব্যবহার করা হয়েছে। এর ফলে এটি লিখিত বার্তা যেকোনো মানুষের কণ্ঠস্বরে বলতে পারে। এ ছাড়া নতুন মডেলটি কণ্ঠস্বর তৈরির সময় একই শব্দ বারবার ব্যবহার করে না। ফলে মানুষের কণ্ঠস্বরের মতোই মনে হয়। শুধু তা–ই নয়, বড় আকারের বাক্য শুনতেও শ্রুতিমধুর লাগে।

মডেলটির কার্যকারিতা পরীক্ষার সময় দেখা গেছে, ভ্যাল-ই টু মডেলটি অন্যান্য টেক্সট টু স্পিচ মডেলের তুলনায় ভালোভাবে শব্দ উচ্চারণ করতে পারে। দীর্ঘ বাক্যে কোথায় থামতে হবে, সেটিও ভালোভাবে করে দেখিয়েছে মডেলটি। এর ফলে মডেলটির কথা মানুষের মতোই মনে হয়। আর তাই এই মডেলের অপব্যবহারের ফলে বিভিন্ন ধরনের প্রতারণার ঘটনা ঘটতে পারে। এ কারণে মডেলটি উন্মুক্ত করতে বিলম্ব করছে মাইক্রোসফট।

সূত্র: টাইমস অব ইন্ডিয়া