Microsoftning yangi loyihasi 3 soniyalik namunadagi har qanday odamning ovozini taqlid qilishi mumkin

Microsoftning yangi loyihasi 3 soniyalik namunadagi har qanday odamning ovozini taqlid qilishi mumkin

Microsoft tadqiqotchilari sun'iy idrok yordamida odamning ovozini atigi soniyali mashg'ulotlar bilan o'xshatish uchun yangi dasturni e'lon qilishdi. Keyin ovozning modeli matndan nutqqa o'tish ilovalari uchun ishlatilishi mumkin.

Tadqiqotchilar arXiv (bepul tarqatish xizmati va ilmiy maqolalar uchun ochiq platforma) saytida chop etilgan maqolada VALL-E deb nomlangan ilovadan yuqori sifatli moslashuvchi nutqni sintez qilish uchun foydalanish mumkin, deb yozdi.

Hozirda nutqni kesish va audio oqimga joylashtirish mumkin bo'lgan dasturlar mavjud va bu nutq terilgan matndan ma'ruzachining ovoziga aylantiriladi. Biroq, amaldagi dasturlarda odamning ovozi bir soat yoki undan ko'proq vaqt yozib olinishini talab qiladi.

“Ushbu modelning diqqatga sazovor jihatlaridan biri shundaki, u buni bir necha soniya ichida amalga oshiradi. Bu juda ta'sirli" - dedi Ross Rubin, Nyu-York shahridagi Reticle Research kompaniyasining bosh tahlilchisi.

Tadqiqotchilarning fikricha, VALL-E nutqning tabiiyligi va so‘zlovchi o‘xshashligi bo‘yicha mavjud zamonaviy matndan nutqqa (TTS) tizimlaridan sezilarli darajada ustun turadi.

Bundan tashqari, VALL-E ma'ruzachining his-tuyg'ularini va akustik muhitini saqlab qolishi mumkin. Masalan, agar nutq namunasi telefon orqali yozib olingan bo'lsa, ushbu ovozdan foydalangan matn telefon orqali o'qilayotgandek eshitiladi.

Super immersiv

VALL-E 2022 yil boshida chiqarilgan YourTTS kabi oldingi zamonaviy tizimlarga nisbatan sezilarli yaxshilanishdir, dedi Giakomo Miseli, kompyuter olimi va AI tomonidan yaratilgan, hech qachon tugamaydigan Verner Gertsog va Slavoy Jijekning sintetik nutqi veb-sayti yaratuvchisi.

“VALL-E ning qiziq tomoni shundaki, unga ovozni klonlash uchun atigi uch soniya audio kerak bo‘ladi, hattoki ovoz hissiy tembr va har qanday fon shovqinli bo'lsa ham” - dedi Miseli TechNewsWorld nashriga. Ritu Jyoti, IDC global bozor tadqiqot kompaniyasining sun'iy idrok va avtomatlashtirish bo'yicha vitse-prezidenti VALL-E ni "muhim va juda ta'sirli" deb atadi.

"Bu avvalgi modellarga nisbatan sezilarli yaxshilanishdir, amaldagi dasturlar yangi ovozni yaratish uchun ancha uzoqroq o'qitish davrini talab qilardi".

U "Bu texnologiya uchun hali dastlabki kunlar va ko'proq yaxshilanishlar uni insonga o'xshatishi mumkin", deya qo'shimcha qildi.

Tuyg'u emulyatsiyasi so'roq ostida

ChatGPTni ishlab chiqaruvchi OpenAIdan farqli o'laroq, Microsoft VALL-E-ni ommaga ochmagan, shuning uchun uning ishlashi haqida savollar qolmoqda. Masalan, ilova tomonidan ishlab chiqarilgan nutqni buzilishga olib boradigan omillar bormi?

"Audio parchasi qanchalik uzoq vaqt yozilsa, sintezning pastroq tovushlarni eshitish ehtimoli yuqori bo'ladi", dedi Miseli. "So'zlar tushunarsiz bo'lishi, o'tkazib yuborilishi yoki nutq sintezida takrorlanishi mumkin".

"Bundan tashqari, hissiy registrlar o'rtasida almashish g'ayritabiiy tuyulishi mumkin", deya qo'shimcha qildi u.

Ilovadagi ma'ruzachining his-tuyg'ularini taqlid qilish qobiliyati ham shubhalarga sabab bo'lmoqda. "Bu qobiliyat qanchalik mustahkam ekanligini ko'rish qiziq bo'ladi", dedi Mark N. Vena, Kaliforniyaning San-Xose shahridagi SmartTech Research kompaniyasi prezidenti va bosh tahlilchisi.

"Uzunroq ovoz namunalarini talab qiladigan SI algoritmlarining joriy cheklovlarini hisobga olgan holda ularning bir necha soniya ovoz bilan buni amalga oshirishi mumkinligiga ishonish qiyin".

Axloqiy tashvishlar

Mutaxassislar VALL-E uchun foydali ilovalarni tasavvur qilishmoqda, shuningdek, ba'zilari unchalik foydali emas. Jyoti nutqni tahrirlash va ovozli aktyorlarni almashtirishni keltirdi. Miselining ta'kidlashicha, texnologiya podkastchilar uchun tahrirlash vositalarini yaratish, aqlli dinamiklar ovozini sozlash, shuningdek, xabar almashish tizimlari va chat xonalari, video o'yinlar va hatto navigatsiya tizimlariga qo'shilishi mumkin.

"Tanganing boshqa tomoni shundaki, yovuz niyatli foydalanuvchi siyosatchining ovozini klonlashi va ularga bema'ni yoki qo'zg'atuvchi so'zlarni aytishi yoki umuman yolg'on ma'lumot yoki tashviqot tarqatishi mumkin", deb qo'shimcha qildi Miseli.

Vena texnologiyada katta suiiste'mol potentsialini ko'radi, agar u Microsoft da'vo qilganidek imkoniyatga ega bo'lsa. "Moliyaviy xizmatlar, xavfsizlik darajasida, haqiqatan ham zararli narsalarni amalga oshirishi mumkin bo'lgan bo'lmag'ur shaxslar tomonidan foydalanish holatlarini tasavvur qilish qiyin emas", dedi u.

Jyoti ham VALL-E atrofida axloqiy tashvishlarni ko'radi. "Texnologiya rivojlanishi bilan VALL-E va shunga o'xshash texnologiyalar tomonidan yaratilgan ovozlar yanada ishonarli bo'ladi", deb tushuntirdi u. "Bu potentsial qurbon bo'ladigan haqiqiy odamlarning ovozini takrorlaydigan haqiqiy spam qo'ng'iroqlarga eshik ochadi".

"Siyosatchilar va boshqa jamoat arboblari ham taqlid qilinishi mumkin", deya qo'shimcha qildi u.

"Xavfsizlik bilan bog'liq muammolar bo'lishi mumkin, masalan, baʼzi banklar ovozli parollarga ruxsat beradi, bu esa notoʻgʻri foydalanish haqida xavotir uygʻotadi. Biz suiiste'mollikni to'xtatish uchun sun'iy intellekt yaratgan kontent va sun'iy intellektni aniqlovchi dasturiy ta'minot o'rtasida qurollanish poygasining kuchayishini kutishimiz mumkin."

"VALL-E hozirda mavjud emasligini ta'kidlash muhim. Umuman olganda, SIni tartibga solish juda muhim. Biz Microsoft VALL-E-dan foydalanishni tartibga solish uchun qanday choralar ko'rayotganini ko'rishimiz kerak" - deya qo'shimcha qildi Jyoti.

VALL-E ommaga ochiqlanmagan, biroq namunalar tekshirib ko'rish uchun ochiq: https://valle-demo.github.io/

Muallif:

O'QING: Bing qidiruv tizimi ChatGPT yordamida Googleni ortda qoldiradi

Xabarlarni tez va oson o'qish uchun Android ilovamizni saqlab oling.