Нейромережа навчили розпізнавати емоції по навколишній ситуації

Корейські розробники представили CAER-Net - алгоритм, який вміє розпізнавати емоції людини не тільки за її обличчям, але й орієнтуючись на інші маркери на зображенні. Система заснована на роботі двох згорточних нейромереж, кожна з яких аналізує обличчя людини в кадрі і все інше, крім обличчя. Точність розпізнавання емоцій становить понад 73 відсотки. Робота доступна на порталі arXiv.org.


Для того, щоб зрозуміти емоційний стан іншої людини, потрібно не так багато: у більшості емоцій є своя стійка міміка і вербальні маркери. Наприклад, коли людина посміхається, ми можемо сказати, що її, швидше за все, щось порадувало, а коли вона хмуриться - зробити висновок, що вона чимось незадоволена.


Така концепція емоційного пізнання звучить досить просто, але на ділі ж вона трохи складніша, і по одній посмішці укласти точно, що відчуває людина, вдається рідко (наприклад, нещодавно ми писали про те, що емоції сприймаються відповідно до особистого досвіду - навіть якщо вони більш-менш очевидні). Для ефективного розпізнавання емоцій дуже важливий контекст тієї ситуації, яка послужила тригером до її появи; більше того, оцінка емоцій з урахуванням контексту в принципі найбільш точна.

Незважаючи на те, що алгоритми комп'ютерного зору вже досить далеко просунулися в розпізнаванні людських емоцій (про це ми писали в матеріалі «Як настрій?»), їх оцінка за контекстом все ще залишається завданням, яке не вирішується автоматично. Виправити це вирішили дослідники з Університету Йонсе (Сеул) під керівництвом Цзіюн Лі (Jiyoung Lee).

Архітектура їхньої навчальної мережі являє собою систему з двох згорточних нейромереж, кожна з яких аналізує, з одного боку, обличчя людини на знімку, а з іншого - те, що її оточує, при цьому для кожної з мережі те, що аналізує інша, залишається недоступним. При аналізі система визначає показники зображень, які відповідають тій чи іншій емоції (всього для аналізу вчені взяли шість базових емоцій, а також нейтральний вираз обличчя), після чого, на останніх шарах, нейромережі об'єднуються і видають відповідь (розпізнану емоцію) за показниками обох.

Виявилося, що, незважаючи на те, що така нейромережа досить точно визначає емоцію тільки по обличчю, ваги при її роботі іноді розподілені таким чином, що за контекстом емоція розпізнається простіше. Це дозволило розробникам зробити висновок, що спільний аналіз виразу обличчя і контексту ситуації (того, що відбувається в кадрі) може бути найбільш оптимальним і ефективним. Середня точність розпізнавання емоцій склала 74,51 відсотка, що перевершує роботу інших алгоритмів, які також протестували автори роботи.

Для навчання та тестування алгоритму дослідники зібрали датасет зі 13201 ролика (всі ролики були взяті з популярних серіалів), з яких виділили понад мільйон окремих кадрів, емоції людей на них розмітили вручну. Крім самого алгоритму також важливий і отриманий дослідниками датасет: у ньому, на відміну від інших баз даних, які використовуються для автоматичного визначення емоцій, немає зображень, де обличчя обрізане або його взагалі не видно. Датасет знаходиться у відкритому доступі: у ньому для навчання сторонніх алгоритмів доступні як статичні кадри, так і окремі ролики.

У автоматичного розпізнавання емоцій досить широке застосування. Наприклад, нещодавно компанія Kia Motors представила систему, яка може оцінити настрій людини в автомобілі і налаштувати під нього обстановку в салоні.


COM_SPPAGEBUILDER_NO_ITEMS_FOUND