Нейромережа навчилася читати по губах краще людини

Розробники з Оксфордського університету створили першу в світі програму, яка розпізнає мову по губах на рівні цілих пропозицій і робить це набагато краще людини. Її робота заснована на використанні нейромереж і методів глибинного навчання. Наукова стаття дослідників, яка була підготовлена до конференції ICLR 2017, опублікована у відкритому доступі.


Автоматичні системи розпізнавання мови на основі міміки людини мають великий практичний потенціал: вони можуть бути використані для створення слухових апаратів нового покоління, біометричної ідентифікації або розслідування злочинів. Тому вчені вже багато років намагаються розробити програму для «читання» по губах, але досі їм не вдавалося досягти успіху. Сучасні системи розпізнавання мови на основі міміки добре «зчитували» окремі слова і словосполучення, однак вони не могли впоратися з цілими реченнями.


Автори нового дослідження подолали це обмеження за допомогою програми LipNet, в основі якої лежить використання LSTM-нейромережі. Ця нейромережа являє собою підвид рекуррентних нейромереж, для яких характерна наявність зворотного зв'язку. Її головна особливість полягає в тому, що вона здатна навчатися довготривалим залежностям. На практиці це означає, що LSTM-нейромережа за замовчуванням зберігає інформацію протягом тривалого періоду часу і здатна працювати з контекстом у довгих реченнях (докладніше про LSTM і рекуррентні нейромережі ви можете прочитати в нашому матеріалі). Крім того, дослідники також використовували спеціальну згорточну нейромережу (STCNN), яка добре справляється із завданням аналізу відео, і навчання методом нейромережної темпоральної класифікації (Connectionist Temporal Classification, CTC).

Як вихідний матеріал автори роботи взяли базу даних Grid, в якій було зібрано понад 32 тисяч відеозаписів. На них 13 осіб вимовляли англійською мовою пропозиції, побудовані за однаковим принципом: команда (4) + колір (4) + привід (4) + літера (25) + число (10) + наречие (4). У дужках вказано кількість варіантів слів для кожної з шести словесних категорій. Різноманітність варіантів обумовлюється тим, що різні звуки (наприклад, [p], [b], [m]) під час вимови виглядають майже однаково, тобто мають спільну візему. Всього кожна пропозиція мала по 64 тисячі варіантів.

В ході тренування LipNet вчилася стежити за губами розмовляє на відео, і на основі цього розуміти, що він сказав. Програму навчали на 88 відсотках вибірки, решта 12 відсотків були використані для перевірки її роботи.

Результати тестування показали, що LipNet може правильно розпізнавати промову по губах у 93,4 відсотках випадків. Таким чином, системі вдалося не тільки обійти інші програми, а й спеціально навчених людей (їх точність розпізнавання мови досягає 52,3 відсотків). Тим не менш, самі автори роботи відзначають, що умови перевірки роботи LipNet були вельми «тепличними», при розпізнаванні довільної людської мови результат може бути значно гіршим.

Раніше компанія Microsoft удосконалила систему розпізнавання усного мовлення, робота якої також заснована на використанні згорточних і LSTM-нейросетей. Тепер система, яку планується використовувати в в голосовому помічнику Cortana, ігровій приставці Xbox One та інших програмах, робить менше помилок, ніж професійний фахівець з набору тексту.

COM_SPPAGEBUILDER_NO_ITEMS_FOUND