Нейромережа реалістично заповнила переривання в аудізвонці

Під час аудіозвінку часто виникають короткі переривання, через які мова співрозмовника здається уривчастою і неприродною. Google розробила нейросетевий алгоритм, який аналізує останні фрагменти мови і заповнює паузу реалістично синтезованим голосом співрозмовника. Компанія кілька місяців тестувала цю функцію на смартфонах Pixel 4, а тепер зробить доступною на інших моделях, повідомляється в блозі Google AI.


Під час аудіозвінку через інтернет сигнал може долати безліч мереж у різних країнах. Це призводить до того, що навіть при якісних алгоритмах стиснення і узгодження фрагментів звуку в самому сервісі, кінцева якість зв'язку у користувача може бути низькою, тому що на одному або декількох проміжних вузлах частина пакетів втрачається.


Ця проблема відома давно, тому майже у всіх програмах застосовується той чи інший алгоритм маскування втрати пакетів (PLC). Зазвичай алгоритм PLC повторює останній записаний фрагмент або новий звук з базовими характеристиками фрагмента, і для коротких пауз масштабу 10-20 мілісекунд цей може давати прийнятну якість. Але якщо загубилося більше пакетів і пауза збільшилася до декількох десятків мілісекунд, робота алгоритму стає явно помітна.

Розробники під керівництвом Ольги Шаронової (Olga Sharonova) з Google і Тома Уолтерса (Tom Walters) з DeepMind створили алгоритм, який здатний створювати реалістичну заміну загубленим пакетам, навіть якщо пауза триває кілька десятків мілісекунд. Алгоритм заснований на нейромережі для синтезу звуку WaveRNN, створеної розробниками з цих компаній в 2018 році.

Новий алгоритм WaveNetEQ складається з двох основних частин: автокодувальника та умовної мережі. Умовна мережа відповідає за збереження просодії голосу і аналізує спектрограму останніх декількох сотень мілісекунд перед паузою. Автокодувальник відповідає безпосередньо за синтез звуку і отримує невеликий останній фрагмент в кілька десятків мілісекунд, а також дані від умовної мережі.

Алгоритм навчений на даних 100 осіб, які розмовляють 48 різними мовами, і потенційно здатний працювати з іншими мовами, тому що він зміг навчитися загальному уявленню про звукову структуру людської мови. Автори зазначають, що через часові обмеження алгоритм здатен ефективно працювати тільки з окремими звуками і складами, а не з цілими словами.

Google зуміла адаптувати алгоритм для роботи в реальному часі на смартфонах і з грудня тестувала його в Duo на смартфонах Google Pixel 4, а тепер почала поширювати його на інших пристроях. Автори опублікували фрагменти мови, оброблені існуючим алгоритмом NetEQ і новим WaveNetEQ:

COM_SPPAGEBUILDER_NO_ITEMS_FOUND