মাইক্রোসফটের তৈরি কৃত্রিম কণ্ঠস্বর তৈরির এআই মডেল ‘অত্যন্ত ঝুঁকিপূর্ণ’, কেন

প্রযুক্তি ডেস্ক

কৃত্রিম কণ্ঠস্বর তৈরির নতুন এআই মডেল তৈরি করছে মাইক্রোসফটরয়টার্স

অডিও নমুনা থেকে কৃত্রিম কণ্ঠস্বর তৈরির জন্য দ্বিতীয় প্রজন্মের কৃত্রিম বুদ্ধিমত্তাভিত্তিক স্পিচ মডেল তৈরি করেছে মাইক্রোসফট। বর্তমানে স্পিচ মডেলটির কার্যকারিতা পরীক্ষা করছে প্রতিষ্ঠানটি। কিন্তু নিজেদের তৈরি মডেলটিকে ‘অত্যন্ত ঝুঁকিপূর্ণ’ হিসেবে বিবেচনা করছে খোদ মাইক্রোসফটই।

কৃত্রিম কণ্ঠস্বর তৈরির এআই মডেলটি ‘ভ্যাল-ই স্পিচ’ মডেলের পরবর্তী সংস্করণ। ‘ভ্যাল-ই টু’ নামের মডেলটি আগের সংস্করণের তুলনায় উন্নত ও শক্তিশালী হওয়ায় যেকোনো ব্যক্তির ধারণ করা অডিও শুনে হুবহু কণ্ঠস্বর নকল করতে পারে। ফলে কৃত্রিম কণ্ঠস্বরটি মানুষের কণ্ঠস্বরের মতোই শোনা যায়। অর্থাৎ রোবটিক বা যান্ত্রিক আবহ পাওয়া যায় না।

মাইক্রোসফটের তথ্যমতে, ভ্যাল-ই টু মডেলটিতে সর্বশেষ প্রযুক্তির নিউরাল কোডেক ল্যাঙ্গুয়েজ ব্যবহার করা হয়েছে। এর ফলে এটি লিখিত বার্তা যেকোনো মানুষের কণ্ঠস্বরে বলতে পারে। এ ছাড়া নতুন মডেলটি কণ্ঠস্বর তৈরির সময় একই শব্দ বারবার ব্যবহার করে না। ফলে মানুষের কণ্ঠস্বরের মতোই মনে হয়। শুধু তা–ই নয়, বড় আকারের বাক্য শুনতেও শ্রুতিমধুর লাগে।

মডেলটির কার্যকারিতা পরীক্ষার সময় দেখা গেছে, ভ্যাল-ই টু মডেলটি অন্যান্য টেক্সট টু স্পিচ মডেলের তুলনায় ভালোভাবে শব্দ উচ্চারণ করতে পারে। দীর্ঘ বাক্যে কোথায় থামতে হবে, সেটিও ভালোভাবে করে দেখিয়েছে মডেলটি। এর ফলে মডেলটির কথা মানুষের মতোই মনে হয়। আর তাই এই মডেলের অপব্যবহারের ফলে বিভিন্ন ধরনের প্রতারণার ঘটনা ঘটতে পারে। এ কারণে মডেলটি উন্মুক্ত করতে বিলম্ব করছে মাইক্রোসফট।

সূত্র: টাইমস অব ইন্ডিয়া

প্রথম আলোর খবর পেতে গুগল নিউজ চ্যানেল ফলো করুন

এআই থেকে আরও পড়ুন

ই-পেপার

মাইক্রোসফটের তৈরি কৃত্রিম কণ্ঠস্বর তৈরির এআই মডেল ‘অত্যন্ত ঝুঁকিপূর্ণ’, কেন