Навушники вважали вираз обличчя за формою щік

Американські інженери створили навушники з функцією розпізнавання виразу обличчя. На кожному навушнику є камера, яка знімає бічну частину обличчя. Поєднуючи ці кадри алгоритм машинного навчання відновлює модель обличчя з високою точністю, а також може розпізнавати деякі слова без звуку. Стаття про розробку буде представлена на конференції UIST 2020.


Розпізнавання міміки обличчя використовується не тільки для досліджень, але і в повсякденних користувальницьких завданнях. Наприклад, в iOS можна використовувати аватари Animoji, які виглядають як персонажі мультфільмів і точно повторюють міміку користувача. А NVIDIA нещодавно запропонувала передавати під час відеодзвінків не відеопотік, а лише карту ключових точок обличчя, щоб потім анімувати фотографію співрозмовника з її допомогою.


Сучасні алгоритми можуть досить точно створювати карту ключових точок в реальному часі, причому навіть на смартфонах. Але для цього алгоритму необхідна відеокамера, а значить, у випадку з тим же смартфоном, пристрій потрібно постійно тримати в руках перед собою, що далеко не завжди зручно. Інженери під керівництвом Чена Чжана (Cheng Zhang) з Корнеллського університету придумали незвичайний і зручний метод створення карт ключових точок обличчя в реальному часі - за допомогою навушників з камерами.

Інженери створили два прототипи навушників: накладні навушники та роздільні навушники-вкладиші. Основна різниця в них полягає в модулях камери і відстані від шкіри (1,5 сантиметра для вкладишів і 2,5 сантиметра для накладних). Камери в них розташовані таким чином, щоб знімати бічну частину обличчя від рота до очей. У поточному вигляді прототип пересилає дані по проводу спочатку на Raspberry Pi, а потім на потужний комп'ютер для обробки.

Кадри з обох камер спочатку зазнають попередньої обробки, під час якої із зображення відрізається вся область поза обличчям, потім воно бінаризується і фільтрується, щоб отримати контур обличчя. Після цього кадри з обох сторін особи подаються в згорточну нейромережу ResNet-18, а потім отриманий на її виході вектор подається на повносв'язну регресійну нейромережу, яка видає два набори ключових точок особи (для двох половин обличчя). На останньому етапі карти точок з'єднуються і виходить карта всієї особи з 42 точками.

Розробники навчили алгоритм на «сирих» кадрах з двох камер в навушниках і розмічених кадрів, знятих на камеру перед обличчями людей. У результаті алгоритм навчився видавати досить точні карти обличчя за двома бічними фотографіями. Середньоквадратична помилка визначення місця розташування по всіх точках становить 0,77 і 0,74 міліметра для вкладишів і накладних навушників відповідно, а для 20 головних точок вона становить 1,43 і 1,39 міліметра відповідно. Також вони створили окрему модель для відновлення карт точок обличчя в масці з порівнянною точністю.

Як приклад автори навчили програму для смартфона відправляти стікери з певними емоціями, що зчитуються навушниками, а також перемикати пісні за беззвучними голосовими командами.

Нещодавно інша група інженерів навчила звичайні бездротові навушники розпізнавати жести пальцем по шкірі в області вуха. Метод використовує мікрофон, тому потенційно його можна використовувати з багатьма моделями навушників без модифікації.


COM_SPPAGEBUILDER_NO_ITEMS_FOUND