Нейромережу навчили чути те, що люди говорять «про себе». І озвучувати це вголос

Американські вчені розробили систему, яка розпізнає беззвучну мову і перетворює її на чутну за допомогою нейромережі - в майбутньому це може посприяти створенню гарнітури, що дозволяє розмовляти по телефону, не видаючи звуків.


Тепер, щоб бути почутим, навіть не потрібно говорити вголос!


Хоча при читанні «про себе» ми не вимовляємо слова вголос і не вимовляємо ніяких звуків, мозок все одно змушує м'язи голосового тракту рухатися, нехай і набагато менше, ніж при «звичайній» мови - цей процес називається субвокалізацією. Інженери вміють зчитувати ці м'язові скорочення різними методами - в основному за допомогою електроміографії, яка реєструє електричну активність м'язів за допомогою електродів на шиї та обличчі.

Однак існуючі інтерфейси для розпізнавання субвокалізації поки здатні перетворювати беззвучну промову лише в текст, тому американські вчені з Каліфорнійського університету в Берклі вирішили розробити алгоритм, який міг би «озвучувати» м'язові скорочення. Його навчили на трьох типах даних: запису чути промову та активність м'язів як під час чутного, так і нечуваного мовлення. В основі їхнього методу лежить перетворення вихідних сигналів.

Алгоритм враховує всі три сигнали - дві електроміограми і чути мову. На першому етапі він знаходить оптимальну відповідність між двома сигналами - чутною і нечутною мови, а на другому, використовуючи отриману відповідність, створює з аудіозапису чутного мовлення аудіозапис мови з електроміограми, тобто нечуваного мовлення. Такий алгоритм необхідний для навчання нейромережі, яка робить те ж саме, отримуючи на вхід не три види сигналу, а всього один - електроміограму нечуваної мови.

Дослідники використовували рекуррентну нейромережу з довгою короткостроковою пам'яттю, а дані, отримані на виході з неї, передаються в нейромережу WaveNet, що декодує їх в аудіозапис людського голосу. Для навчання було зібрано датасет з 20 годин запису чутного і беззвучного мовлення, представленого у вигляді трьох типів даних. Після навчання розробники перевірили зрозумілість генерованих записів.

Як метрику вчені використовували стандартну присловну ймовірність помилки - суму змінених, відсутніх і зайвих слів, поділену на загальну довжину тексту. Для простих фраз, на зразок дат та інших чисел, ймовірність помилки повноцінної нейромережі склала 3,6, а для тієї, яку навчали тільки на чутній промові, вона склала 88,8. Для складних фраз, на кшталт уривків з книг, різниця була не такою великою: 74,8 до 95,1 при перевірці людиною і 68 до 91,2 при перевірці системою розпізнавання мовлення Mozilla DeepSpeech.

COM_SPPAGEBUILDER_NO_ITEMS_FOUND