Намисто з інфрачервоною камерою розпізнає беззвучні команди

Інженери з двох американських, канадського і китайського університетів розробили намисто SpeeChin, що розпізнає 54 команди англійською і 44 китайською без звуку. Воно знімає шию і обличчя розмовляє з-під підборіддя на інфрачервону камеру, потім обробляє зображення і визначає команду. Розробники перевірили SpeeChin на 20 користувачів, і намисто розпізнавало безмовні команди англійською з середньою точністю 90,5 відсотка, а китайською - 91,6 відсотка. Результати були опубліковані в.


Майже на всіх сучасних смартфонах є голосові помічники, які розпізнають і виконують команди користувача. Хоча за останній час вони навчилися це робити досить точно, мовне введення підходить не для будь-якої ситуації. Наприклад, використовувати його в громадських або просто людних місцях може бути некомфортно.


Для таких ситуацій інженери розробляють альтернативні способи управління гаджетами. Наприклад, розумні окуляри J! ns Meme трансформують в команди для смартфона дотики і потирання носа пальцями. А китайський додаток для смартфона розпізнає беззвучну мову по рухах доль і перетворює її на дії на пристрої.

Чжан Жуйдун (Ruidong Zhang) і його колеги з Корнеллського університету, а також Каліфорнійського університету, Чжецзянського університету та Університету Макгіла розробили намисто SpeeChin, що розпізнає 54 беззвучних команди англійською і 44 китайською. За допомогою інфрачервоної камери воно знімає шию і обличчя з-під підборіддя. Потім зображення проходять попередню обробку, після чого згорточна і рекуррентна нейромережі розпізнають по них мову.

Згорточні нейромережі добре справляються з розпізнаванням зображень, звуків та іншими подібними завданнями. У них різні шари нейронів пов'язані через операцію згортки, в ході якої використовується обмежена матриця терезів невеликого розміру, що рухається за попереднім шаром. Це дозволяє нарощувати велику кількість шарів без надто великих обчислювальних витрат. Але коли йдеться про послідовні дані змінної довжини, у рекуррентних нейромереж є свої переваги. У них є пам'ять і вони здатні працювати з контекстом у довгих пропозиціях.

Щоб перевірити, як працює SpeeChin, Чжан Жуйдун і його колеги провели два дослідження за участю 20 користувачів. Перші десять віддавали беззвучні команди англійською, а другі - китайською. Наприклад, «відповісти», «зателефонувати», «камера», «ОК Google» або «WeChat». У цей час камера фіксувала рухи обличчя з-під підборіддя. Камера була підключена до одноплатного комп'ютера Raspberry Pi, а він - до монітора і кнопки управління, що дозволяє запустити, поставити на паузу і зупинити процес збору даних.

Результати показали, що намисто розпізнає команди англійською з середньою точністю 90,5 відсотка, а китайською - 91,6 відсотка. Щоправда, коли користувачі рухалися, точність визначення команд була значно нижчою - 72,3 відсотка для англійських і 65,5 відсотка для китайських - і різко змінювалася залежно від учасника. У SpeeChin є й інші обмеження. Наприклад, в яскравому сонячному світлі на вулиці камері може бути складно сегментувати людську шкіру від фону. Ще її огляду може перешкодити довге волосся або одяг. До того ж, в учасників дослідження англійська не була рідною мовою, що теж могло вплинути на результати.

Читати беззвучну мову дозволяють не тільки пристрої з камерами. Раніше ми писали про нейромишкову гарнітуру AlterEgo, яка використовує навушники з кістковою провідністю і чотири електроди.


COM_SPPAGEBUILDER_NO_ITEMS_FOUND