Штучний інтелект Google вчиться красиво говорити китайською і англійською

Технології 05 січня 2024

Штучний інтелект Google на базі британської компанії Deep Mind вчиться вимовляти пропозиції так, щоб вони звучали природно. Прослуховуючи записи людської мови, самонавчальна нейромережа вже виробила алгоритми, що дозволяють їй говорити англійською та китайською мовами краще, ніж всі роботи до неї.

Для цього самонавчальній нейромережі необхідно прослухати безліч аудіозаписів і навчитися самостійно виділяти сенсоутворюючі зміни довжини звукової хвилі. Однак це не так просто. Аудіозапис людської мови - це близько 16000 звукових модуляцій на секунду. Уявіть собі візуалізацію звукової хвилі - звичайний веретеноподібний графік. Кожен вигин цього веретена породжений тисячами змін довжини і амплітуди звукової хвилі.

Існуючі генератори мови працюють за рахунок конкатенації (склеювання) фрагментів записаної мови з великої бібліотеки. Їх звучання зовсім неважко відрізнити від людської мови. Ви часто чуєте конкатенативні TTS (text-t-speach systems) в навігаторі: «Поверніть праворуч, а потім поверніть праворуч». Не записавши додатково величезні бібліотеки, не можна домогтися від такої системи природного звучання. Тому виникла потреба в параметричній TTS (на зразок тих, які існують у вокодерах), яка могла б озвучити будь-який фрагмент тексту, не відомий заздалегідь, і була б при цьому невідважна на слух від мови живої людини.

Фото

WaveNet буде працювати як параметричний синтезатор мовлення. При параметричному підході мова розкладається на безліч безперервно мінливих сигналів. Досі параметричні системи могли відтворювати тільки заздалегідь відомі короткі повідомлення, проте WaveNet буде здатний передбачати параметри кожного наступного коливання завдяки тій же архітектурі нейромережі, що дозволила Deep Mind навчитися розпізнавати зображення. Передбачення кожного нового параметра буде засновано на досвіді всіх минулих передбачень нейромережі, тому в міру навчання нейромережі її здібності зростатимуть експоненційно.

Під час навчання в комп'ютер завантажуються записи мови живих людей англійською та китайською мовами. Після навчання розробники просять WaveNet озвучити згенеровані їй самої фрази. Те, що система видає зараз, поки все ще відрізняється від промови живої людини, але вже не звучить як штучний голос з навігатора.

Раніше Deep Mind обіграв людину в го і розробив алгоритм для офтальмологічної діагностики.