Microsoftнинг янги лойиҳаси 3 сониялик намунадаги ҳар қандай одамнинг овозини тақлид қилиши мумкин

Microsoftнинг янги лойиҳаси 3 сониялик намунадаги ҳар қандай одамнинг овозини тақлид қилиши мумкин

Microsoft тадқиқотчилари сунъий идрок ёрдамида одамнинг овозини атиги сонияли машғулотлар билан ўхшатиш учун янги дастурни эълон қилишди. Кейин овознинг модели матндан нутққа ўтиш иловалари учун ишлатилиши мумкин.

Тадқиқотчилар арХив (бепул тарқатиш хизмати ва илмий мақолалар учун очиқ платформа) сайтида чоп этилган мақолада VALL-E деб номланган иловадан юқори сифатли мослашувчи нутқни синтез қилиш учун фойдаланиш мумкин, деб ёзди.

Ҳозирда нутқни кесиш ва аудио оқимга жойлаштириш мумкин бўлган дастурлар мавжуд ва бу нутқ терилган матндан маърузачининг овозига айлантирилади. Бироқ, амалдаги дастурларда одамнинг овози бир соат ёки ундан кўпроқ вақт ёзиб олинишини талаб қилади.

“Ушбу моделнинг диққатга сазовор жиҳатларидан бири шундаки, у буни бир неча сония ичида амалга оширади. Бу жуда таъсирли" - деди Росс Рубин, Ню-Ёрк шаҳридаги Reticle Research компаниясининг бош таҳлилчиси.

Тадқиқотчиларнинг фикрича, VALL-E нутқнинг табиийлиги ва сўзловчи ўхшашлиги бўйича мавжуд замонавий матндан нутққа (TTS) тизимларидан сезиларли даражада устун туради.

Бундан ташқари, VALL-E маърузачининг ҳис-туйғуларини ва акустик муҳитини сақлаб қолиши мумкин. Масалан, агар нутқ намунаси телефон орқали ёзиб олинган бўлса, ушбу овоздан фойдаланган матн телефон орқали ўқилаётгандек эшитилади.

Супер иммерсив

VALL-E 2022 йил бошида чиқарилган YourTTS каби олдинги замонавий тизимларга нисбатан сезиларли яхшиланишдир, деди Гиакомо Мисели, компютер олими ва AI томонидан яратилган, ҳеч қачон тугамайдиган Вернер Герцог ва Славой Жижекнинг синтетик нутқи веб-сайти яратувчиси.

“VALL-E нинг қизиқ томони шундаки, унга овозни клонлаш учун атиги уч сония аудио керак бўлади, ҳаттоки овоз ҳиссий тембр ва ҳар қандай фон шовқинли бўлса ҳам” - деди Мисели TechNewsWorld нашрига. Риту Жёти, IDC глобал бозор тадқиқот компаниясининг сунъий идрок ва автоматлаштириш бўйича вице-президенти VALL-E ни "муҳим ва жуда таъсирли" деб атади.

"Бу аввалги моделларга нисбатан сезиларли яхшиланишдир, амалдаги дастурлар янги овозни яратиш учун анча узоқроқ ўқитиш даврини талаб қиларди".

У "Бу технология учун ҳали дастлабки кунлар ва кўпроқ яхшиланишлар уни инсонга ўхшатиши мумкин", дея қўшимча қилди.

Туйғу эмуляцияси сўроқ остида

ChatGPTни ишлаб чиқарувчи OpenAIдан фарқли ўлароқ, Microsoft VALL-Eни оммага очмаган, шунинг учун унинг ишлаши ҳақида саволлар қолмоқда. Масалан, илова томонидан ишлаб чиқарилган нутқни бузилишга олиб борадиган омиллар борми?

"Аудио парчаси қанчалик узоқ вақт ёзилса, синтезнинг пастроқ товушларни эшитиш эҳтимоли юқори бўлади", деди Мисели. "Сўзлар тушунарсиз бўлиши, ўтказиб юборилиши ёки нутқ синтезида такрорланиши мумкин".

"Бундан ташқари, ҳиссий регистрлар ўртасида алмашиш ғайритабиий туюлиши мумкин", дея қўшимча қилди у.

Иловадаги маърузачининг ҳис-туйғуларини тақлид қилиш қобилияти ҳам шубҳаларга сабаб бўлмоқда. "Бу қобилият қанчалик мустаҳкам эканлигини кўриш қизиқ бўлади", деди Марк Н. Вена, Калифорниянинг Сан-Хосе шаҳридаги SmartTech Research компанияси президенти ва бош таҳлилчиси.

"Узунроқ овоз намуналарини талаб қиладиган СИ алгоритмларининг жорий чекловларини ҳисобга олган ҳолда уларнинг бир неча сония овоз билан буни амалга ошириши мумкинлигига ишониш қийин".

Ахлоқий ташвишлар

Мутахассислар VALL-E учун фойдали иловаларни тасаввур қилишмоқда, шунингдек, баъзилари унчалик фойдали эмас. Жёти нутқни таҳрирлаш ва овозли актёрларни алмаштиришни келтирди. Миселининг таъкидлашича, технология подкастчилар учун таҳрирлаш воситаларини яратиш, ақлли динамиклар овозини созлаш, шунингдек, хабар алмашиш тизимлари ва чат хоналари, видео ўйинлар ва ҳатто навигация тизимларига қўшилиши мумкин.

"Танганинг бошқа томони шундаки, ёвуз ниятли фойдаланувчи сиёсатчининг овозини клонлаши ва уларга бемаъни ёки қўзғатувчи сўзларни айтиши ёки умуман ёлғон маълумот ёки ташвиқот тарқатиши мумкин", деб қўшимча қилди Мисели.

Вена технологияда катта суиистеъмол потенциалини кўради, агар у Microsoft даъво қилганидек имкониятга эга бўлса. "Молиявий хизматлар, хавфсизлик даражасида, ҳақиқатан ҳам зарарли нарсаларни амалга ошириши мумкин бўлган бўлмағур шахслар томонидан фойдаланиш ҳолатларини тасаввур қилиш қийин эмас", деди у.

Жёти ҳам VALL-E атрофида ахлоқий ташвишларни кўради. "Технология ривожланиши билан VALL-E ва шунга ўхшаш технологиялар томонидан яратилган овозлар янада ишонарли бўлади", деб тушунтирди у. "Бу потенциал қурбон бўладиган ҳақиқий одамларнинг овозини такрорлайдиган ҳақиқий спам қўнғироқларга эшик очади".

"Сиёсатчилар ва бошқа жамоат арбоблари ҳам тақлид қилиниши мумкин", дея қўшимча қилди у.

"Хавфсизлик билан боғлиқ муаммолар бўлиши мумкин, масалан, баьзи банклар овозли паролларга рухсат беради, бу эса нотўғри фойдаланиш ҳақида хавотир уйғотади. Биз суиистеъмолликни тўхтатиш учун сунъий интеллект яратган контент ва сунъий интеллектни аниқловчи дастурий таъминот ўртасида қуролланиш пойгасининг кучайишини кутишимиз мумкин."

"VALL-E ҳозирда мавжуд эмаслигини таъкидлаш муҳим. Умуман олганда, СИни тартибга солиш жуда муҳим. Биз Microsoft VALL-Eдан фойдаланишни тартибга солиш учун қандай чоралар кўраётганини кўришимиз керак" - дея қўшимча қилди Жёти.

VALL-E оммага очиқланмаган, бироқ намуналар текшириб кўриш учун очиқ: https://valle-demo.github.io/

Муаллиф:

ЎҚИНГ: Bing қидирув тизими ChatGPT ёрдамида Googleни ортда қолдиради

Сайтимизнинг энг чиройли расмларини Инстаграмдаги саҳифамизда томоша қилинг!