Нейромережа прочитала по губах промову дикторів BBC

Розробники з Оксфордського університету і лабораторії Google DeepMind створили систему штучного інтелекту, яка може розпізнавати промову по губах в реальних умовах, причому робить вона це краще людини. Для її навчання дослідники використовували фрагменти телепередач BBC. З текстом статті можна ознайомитися на сайті ArXiv.


Автоматичні системи розпізнавання мови на основі міміки людини можуть використовуватися різними способами: наприклад, для створення слухових апаратів нового покоління, біометричної ідентифікації або розслідування злочинів. Тому вчені вже багато років працюють над розробкою програм для «читання» по губах, проте їх успіх в цій області досить обмежений. Тільки в цьому місяці дослідники представили першу в світі систему LipNet, яка може розпізнавати промову на рівні цілих пропозицій краще людини. Однак навіть у ній були вади. Головним недоліком LipNet було те, що для перевірки її роботи використовувалася база даних з обмеженим числом дикторів, які говорили пропозиції, побудовані за однаковим принципом. Такі умови визнали «тепличними» навіть самі розробники.


Автори нової роботи представили систему Watch, Listen, Attend and Spell (WLAS), яка розпізнає промову реальних телеведучих програм BBC. Вона побудована за тим же принципом, що і LipNet: в її основі лежить поєднання використання LSTM і згорточних нейромереж і методів машинного навчання. LSTM-нейромережі являють собою різновид рекуррентних нейромереж, для яких характерна наявність зворотного зв'язку. Їхня головна особливість полягає в тому, що вони здатні навчатися довготривалим залежностям і, як наслідок, працювати з контекстом у довгих реченнях (докладніше про LSTM і рекуррентні нейромережі ви можете прочитати в нашому матеріалі). Згорточні нейромережі, в свою чергу, добре справляються із завданням розпізнавання зображень і підходять для покадрового аналізу відео.

Система WLAS навчалася за допомогою бази даних, що складалася з 5 тисяч годин записів телепередач BBC. Загалом вона містила 118 тисяч речень, які вимовлялися різними людьми. Спочатку штучний інтелект вчився розпізнавати «по губах» окремі слова, зіставляючи руху доль, що говорить з субтитрами, а після переходив на рівень словосполучень і окремих речень. Крім того, WLAS була додатково навчена розпізнавати промову з аудіодоріжок.

Близько 12 тисяч пропозицій із загальної бази даних були використані для перевірки нової системи. Тести показали, що в 46,8 відсотках випадків WLAS правильно визначає, що сказав учасник телепрограми. При цьому багато помилок були незначними - наприклад, програма пропускала «s» в кінці слів. Таким чином штучному інтелекту вдалося обійти людину: точність спеціально навчених людей, які розшифровували 200 випадково обраних відео з тієї ж бази даних, досягала всього 12,4 відсотків (якщо з оцінки виключалися ті пропозиції, з якими розшифровник відмовлявся працювати, то вона зростала до 26,2).

З таким результатом WLAS обходить всі існуючі системи розпізнавання мови з міміки людини. Тим не менш, поки не ясно, де саме буде використана програма. Автори роботи заявляють, що з її допомогою можна буде поліпшити роботу таких мобільних асистентів, як Siri.

Нещодавно компанія Microsoft оголосила про те, що їй вдалося вдосконалити систему розпізнавання усної мови, робота якої також заснована на використанні згорточних і LSTM-нейромереж. Тепер програма, яку планується використовувати в голосовому помічнику Cortana, ігровій приставці Xbox One та інших програмах, робить менше помилок, ніж професійний фахівець з набору тексту.

COM_SPPAGEBUILDER_NO_ITEMS_FOUND