Новий алгоритм повідомить про підміну осіб на відео

Європейські вчені навчили алгоритм виявляти підміну осіб у відеороликах. Для навчання програми дослідники створили масштабний датасет з півмільйона зображень, які взято з більш ніж тисячі відео, створених з використанням алгоритму face2face. препринт з описом роботи опубліковано на сайті arXiv.org.


Розвиток машинного навчання дозволив розробникам вирішувати завдання, раніше важкодоступні для комп'ютера: наприклад, ефективно розпізнавати об'єкти на зображеннях, покращувати якість фотографій або навіть створювати відео з розмитих зображень з артефактами руху. Одне з таких завдань - реалістична підміна осіб на фотографіях: на зміну класичному підходу з ручною роботою у фоторедакторах прийшли алгоритми, які можуть робити це автоматично. У них не завжди виходить ефективно (варто згадати те ж нейросетеве порно); однак, є й алгоритми, які роблять підміну осіб на фотографіях і відео досить реалістичною.


Серед них - face2face, який вміє знімати з відео маску людського обличчя і переносити її обличчя в іншому відео, причому досить реалістично. З одного боку, розвиток подібних технологій може допомогти, наприклад, для створення комп'ютерних ігор або дубляж кінофільмів на інші мови, з іншого боку, такі технології можуть бути використані на шкоду людям (докладніше про це читайте в нашому матеріалі «Пластмасовий світ переміг»).

Саме тому необхідна система, яка може ефективно розпізнавати підміну осіб на відео. Її створенням зайнялися автори нової роботи під керівництвом Маттіаса Ніснера (Matthias Nie^ ner) з Мюнхенського технологічного університету. Використавши алгоритм face2face, вчені отримали два типи зображень для свого датасета: у ньому є зображення осіб, «перенесені» на чужі тіла, а також скопійована на обличчя міміка інших людей. За словами вчених, новий датасет, названий FaceForensics, - це наймасштабніша база даних для навчання алгоритмів виявлення підробок.

Далі дослідники використовували FaceForensics для тренування власного алгоритму розпізнавання підміни осіб, заснованого на методах глибокого навчання, - Xcep^ Net. За точністю розпізнавання новий алгоритм перевершує вже існуючі в кілька разів: причому навіть при оцінці стислих відео.

Взявши до уваги те, що удосконалення алгоритму для створення підроблених зображень призведе до того, що покращаться і самі підроблені зображення (так, що підробку буде розпізнати складніше), вчені використовували свій датасет для створення алгоритму, що покращує підроблені знімки. Розробникам вдалося поліпшити «накладення» маски (особливо - в області підборіддя та носа): незалежні оцінювачі на 8 відсотків рідше називали отримані зображення підробленими в порівнянні з зображеннями face2face.

Нарешті, вчені перевірили роботу Xcep^ Net на поліпшених підроблених зображеннях: алгоритм показував до 99 відсотків точності розпізнавання при використанні незжатих зображень роздільною здатністю 128 ст.1128 пікселів. На думку вчених, їхня робота допоможе розробникам у майбутньому: датасет знаходиться у вільному доступі на сайті команди.

Торік розробники створили алгоритм, який може переносити живу мову з одного відео в інше, досить реалістично відтворюючи артикуляційну міміку балакучого. Алгоритм, що працює на основі рекуррентних нейромереж, був навчений на 17 годинах відеозапису промов 44-го Президента США Барака Обами.


COM_SPPAGEBUILDER_NO_ITEMS_FOUND