Вокодер відновить промову людини по руху 1916

Вчені створили пристрій, який може відновлювати мову людини тільки на основі рухів її рота. Для цього воно використовує спеціальні датчики, які закріплюються на обличчі. Стаття вчених опублікована в журналі.


Використання нейрокомп'ютерних інтерфейсів, приєднаних до синтезаторів мови, могло б допомогти людям, які страждають від паралічу або афазії, відновити промову. Однак для реалізації такої технології необхідно спочатку створити синтезатор мовлення, який дозволить в режимі реального часу відтворювати голосовий сигнал по невеликому набору параметрів. Автори нової роботи запропонували концепцію пристрою, який може синтезувати мову, спираючись лише на інформацію про рух органів мови людини.


В основі розробленого дослідниками синтезатора мовлення лежить використання нейронної мережі з трьома прихованими шарами і вокодера (пристрої синтезу мовлення). Нейромережа була навчена за допомогою спеціальної бази даних, в якій зберігалася інформація про звуки, вимовлені людиною, і відповідні їм дії органів мови. Для її створення вчені під'єднали дев'ять датчиків руху до небної фіранки, губів, мови і щелепи чоловіка, носія французької мови. Під час того, як він говорив, комп'ютер стежив за його артикуляцією. У підсумку дослідникам вдалося записати майже дев'ятнадцять тисяч звуків або 712 мовних елементів різної довжини (починаючи з окремих гласних і згодних і закінчуючи цілими пропозиціями) і відповідні їм рухи органів мови. Загальна тривалість аудіозапису склала 45 хвилин.

Після навчання штучний інтелект навчився відновлювати голосовий сигнал виключно щодо руху доль людини. Мова, створена комп'ютером, звучить штучно, проте дослідники на даному етапі не домагалися її природного звучання. Чотири носії французької мови перевірили роботу програми: кожного з учасників дослідження попросили беззвучно вимовити сім гласних і кілька послідовностей, побудованих за схемою гласна-згодна-гласна. Після цього 12 осіб, які також розмовляють французькою мовою, намагалися визначити за відновленим голосовим сигналом, який звук виголосили випробовувані.

Тестування показало, що штучний інтелект розпізнає гласні звуки значно краще, ніж згодні - середня точність розпізнавання гласних досягала 86 відсотків, а згодних - 49 відсотків. Послідовності гласних система розпізнавала в 48-52 відсотках випадків.

У майбутньому подібний пристрій може бути використаний для допомоги людям з проблемами мовного тракту. Крім того, винахід авторів роботи допоможе іншим дослідникам при розробці нейрокомп'ютерних інтерфейсів, які будуть відтворювати мову людини тільки на основі сигналів її мозку. Зокрема, вчені зможуть використовувати схожий підхід.

Нещодавно розробники створили алгоритм, який дозволяє подолати проблему «роботизованого» голосу і домогтися природного звучання. В основі нового голосового синтезатора також лежить використання нейромереж. Крім того, розробники нещодавно досягли успіху і при зворотній операції - розпізнаванні усної мови. Компанія Microsoft створила систему, яка робить менше помилок, ніж людина. А вчені з лабораторії DeepMind представили програму, яка може розуміти, що сказала людина, відстежуючи рухи її доль.

COM_SPPAGEBUILDER_NO_ITEMS_FOUND