কৃত্রিম কণ্ঠস্বর তৈরির নতুন এআই মডেল তৈরি করছে মাইক্রোসফট
কৃত্রিম কণ্ঠস্বর তৈরির নতুন এআই মডেল তৈরি করছে মাইক্রোসফট

মাইক্রোসফটের তৈরি কৃত্রিম কণ্ঠস্বর তৈরির এআই মডেল ‘অত্যন্ত ঝুঁকিপূর্ণ’, কেন

অডিও নমুনা থেকে কৃত্রিম কণ্ঠস্বর তৈরির জন্য দ্বিতীয় প্রজন্মের কৃত্রিম বুদ্ধিমত্তাভিত্তিক স্পিচ মডেল তৈরি করেছে মাইক্রোসফট। বর্তমানে স্পিচ মডেলটির কার্যকারিতা পরীক্ষা করছে প্রতিষ্ঠানটি। কিন্তু নিজেদের তৈরি মডেলটিকে ‘অত্যন্ত ঝুঁকিপূর্ণ’ হিসেবে বিবেচনা করছে খোদ মাইক্রোসফটই।

কৃত্রিম কণ্ঠস্বর তৈরির এআই মডেলটি ‘ভ্যাল-ই স্পিচ’ মডেলের পরবর্তী সংস্করণ। ‘ভ্যাল-ই টু’ নামের মডেলটি আগের সংস্করণের তুলনায় উন্নত ও শক্তিশালী হওয়ায় যেকোনো ব্যক্তির ধারণ করা অডিও শুনে হুবহু কণ্ঠস্বর নকল করতে পারে। ফলে কৃত্রিম কণ্ঠস্বরটি মানুষের কণ্ঠস্বরের মতোই শোনা যায়। অর্থাৎ রোবটিক বা যান্ত্রিক আবহ পাওয়া যায় না।

মাইক্রোসফটের তথ্যমতে, ভ্যাল-ই টু মডেলটিতে সর্বশেষ প্রযুক্তির নিউরাল কোডেক ল্যাঙ্গুয়েজ ব্যবহার করা হয়েছে। এর ফলে এটি লিখিত বার্তা যেকোনো মানুষের কণ্ঠস্বরে বলতে পারে। এ ছাড়া নতুন মডেলটি কণ্ঠস্বর তৈরির সময় একই শব্দ বারবার ব্যবহার করে না। ফলে মানুষের কণ্ঠস্বরের মতোই মনে হয়। শুধু তা–ই নয়, বড় আকারের বাক্য শুনতেও শ্রুতিমধুর লাগে।

মডেলটির কার্যকারিতা পরীক্ষার সময় দেখা গেছে, ভ্যাল-ই টু মডেলটি অন্যান্য টেক্সট টু স্পিচ মডেলের তুলনায় ভালোভাবে শব্দ উচ্চারণ করতে পারে। দীর্ঘ বাক্যে কোথায় থামতে হবে, সেটিও ভালোভাবে করে দেখিয়েছে মডেলটি। এর ফলে মডেলটির কথা মানুষের মতোই মনে হয়। আর তাই এই মডেলের অপব্যবহারের ফলে বিভিন্ন ধরনের প্রতারণার ঘটনা ঘটতে পারে। এ কারণে মডেলটি উন্মুক্ত করতে বিলম্ব করছে মাইক্রোসফট।

সূত্র: টাইমস অব ইন্ডিয়া