Розробники Google адаптували відеодзвінки для глухих

Розробники з Google адаптували програми відеозв'язку для глухих людей. Вони створили програму, яка виявляє, коли хтось зі співрозмовників починає говорити жестовою мовою, і змушує програму показувати її як активного співрозмовника. Автори докладно описали розробку в статті, представленій на конференції SLRTP 2020, створили сайт з демо-версією програми і опублікували вихідний код у двох репозиторіях на GitHub (1, 2).


Відеозв'язок дозволяє не тільки отримувати інформацію про людину, як у випадку з текстом, але і бачити її міміку і чути голос. Це дозволяє ефективніше спілкуватися, особливо коли в розмові беруть участь відразу кілька людей, наприклад, колеги з однієї компанії. Через карантинні заходи під час пандемії нового коронавірусу багато організацій частково або повністю перейшли на віддалену роботу, а частина з них, в тому числі і великі IT-компанії, планують зробити віддалений режим роботи варіантом норми навіть коли карантинні заходи будуть скасовані. Однак глухі люди не можуть повною мірою користуватися програмами відеозв'язку. Наприклад, коли в дзвінку бере участь відразу кілька співрозмовників, зазвичай програма за рівнем гучності визначає розмовника і показує відео з його камери іншим. Під час розмови жестовою мовою цей метод марний.


Сріні Нараянан (Srini Narayanan) і його колеги з Google створили програму, яка працює з популярними додатками відеозв'язку і дозволяє акцентувати увагу на людині, яка говорить жестами. Програму умовно можна розбити на дві частини: перша аналізує розмову мовою жестів, а друга пов'язується з додатком для відеозв'язку.

Програма виконана у вигляді веб-додатку, написаного на TensorFlow.js. Воно знімає користувача і спочатку складає схематичну модель його тіла за допомогою алгоритму PoseNet. На кожному кадрі модель нормалізується за розміром, щоб робота алгоритму не залежала від того, як далеко від камери або під яким кутом сидить людина. Потім по сусідніх кадрах (станах моделі) алгоритм розраховує оптичний потік і тим самим визначає, що людина активно рухає руками.

Коли алгоритм визначив, що людина говорить, в справу вступає його друга частина, яка відповідає за зв'язок з додатком, наприклад, Zoom або Google Meet. Розробники застосували простий і водночас винахідливий прийом: до звичайного запису з мікрофона він підмішує ультразвук з частотою 20 кілогерць, який зазвичай не чують люди. Алгоритм передає ці дані в додаток через віртуальний кабель, а додаток розпізнає ультразвук як гучний шум і перемикає увагу на цього співрозмовника, думаючи що він голосно говорить.

Розробники навчили алгоритм визначення мови на датасеті німецької жестової мови з роликами, на яких розмічені фрагменти з промовою. Алгоритм побудований за архітектурою довгої короткострокової пам'яті (LSTM) і враховує десятки попередніх кадрів при визначенні активності. Після навчання він показав точність роботи 91,5 відсотка і швидкість обробки одного кадру рівну 3,5 мілісекунди.

Автори визнають, що в поточному вигляді у алгоритму є явні недоліки. Наприклад, він визначає активність людини в цілому по руху її тіла і рук і тому не розрізняє жестову мову і звичайні рухи руками. Крім того, оскільки звук подається через віртуальний кабель, програма працює тільки з Windows і Mac (скоро з'явиться підтримка Linux) і в осяжному майбутньому не зможе працювати на смартфонах. Проте навіть у такому вигляді алгоритм може бути корисним і працювати з популярними додатками.

У 2018 році американський програміст створив додаток для ноутбука, який робить розумні колонки доступними для глухих. Воно розпізнає жести і відтворює через динаміки голосову команду, а потім розпізнає відповідь колонки і виводить його на свій екран у текстовому вигляді.


COM_SPPAGEBUILDER_NO_ITEMS_FOUND