Комп'ютер навчили анімувати особи необробленим записом мови

Розробники з Microsoft Research представили алгоритм, який може анімувати статичні кадри осіб за допомогою необроблених записів мови людей. Створена ними модель - контекстно-залежна: вона виділяє з аудіо не тільки фонетичні характеристики, але також і емоційний тон і сторонній шум, завдяки чому може накласти на статичний кадр всі можливі аспекти мовлення. Препринт статті з описом роботи алгоритму доступний на arXiv.org.


Для анімації статичних зображень у більшості випадків використовується перенесення інформації з відеозаписів на необхідний кадр. У вирішенні цього завдання розробники вже досягли значних успіхів: зараз існують моделі, які можуть достовірно переносити промову з відеоряда на статичний кадр, відтворюючи міміку балакучого.


Труднощі у вирішенні, однак, можуть виникати у випадку, якщо «оживити» зображення потрібно за допомогою аудіоряду: всі існуючі зараз алгоритми, які можуть перенести аудіо на статичний кадр так, щоб вийшла натуральна анімація або навіть відео процесу мовлення, обмежені тим, що можуть працювати тільки з чистою, добре чутною промовою, сказаною нейтральним голосом без емоційного забарвлення. Людська мова, однак, досить багатогранна і в ідеалі необхідно навчити подібні алгоритми відтворювати всі її аспекти.

Зайнятися цим вирішили Гаурав Міттал (Gaurav Mittal) і Баоюань Ван (Baoyuan Wang) з Microsoft Research. Їх алгоритм отримує на вхід аудіофайл і за допомогою варіаційного автоенкодера на основі нейромереж з довгою короткостроковою пам'яттю виділяє ключові аспекти: фонетичну та емоційну складову (всього алгоритм розуміє шість базових емоцій), а також сторонній шум. На основі виділеної інформації реконструюється міміка балакучого - для цього використовуються відеофайли - і накладається на спочатку статичне зображення.

Для навчання алгоритму дослідники використовували три різні датасети: GRID, що складається з тисячі відеозаписів мови 34 людей, сказаної з нейтральним виразом, 7,4 тисячі відеозаписів промов з різним емоційним забарвленням, взятих з датасета CREMA-D, а також понад сто тисяч уривків з відео TED.

В результаті дослідникам вдалося анімувати статичні зображення навіть з використанням аудіо з фоновим шумом до 40 децибел, а також - успішно використовувати емоційні складові мови, що говорить в анімуванні. Самі анімації автори не наводять, але наводять порівняння отриманих кадрів з результатами роботи одного з перших подібних алгоритмів.

Автори роботи також уточнили, що їх алгоритм можна використовувати у всіх вже існуючих системах, які можуть анімувати статичні зображення за допомогою аудіо: для цього необхідно буде замінити в сторонніх алгоритмах обробний аудіо компонент.

Мова, безумовно, несе дуже багато інформації про говорящий, причому не тільки про емоції і наміри, але також, наприклад, про зовнішній вигляд. Нещодавно американські розробники навчили алгоритм відтворювати зразкову зовнішність людини за записом її мови: система досить точно передає стать, вік і расу говорящего.


COM_SPPAGEBUILDER_NO_ITEMS_FOUND