Нейромережа Facebook перетворила записи тенісних матчів на інтерактивну гру

Розробники з Facebook AI Research створили алгоритм, що дозволяє керувати рухом людини на відео і міняти фон. В основі алгоритму лежать дві нейромережі, одна з яких визначає позу людини і змінює її відповідно до команди користувача, а друга відповідає за створення нового реалістичного відеролика зі зміненим становищем людини, розповідають автори статті на arXiv.org.


Перенесення об'єктів і стилю між зображеннями - один з найбільш вражаючих прикладів, що наочно показують прогрес в області нейросетевих алгоритмів. Мабуть, найвідоміший приклад такого перенесення - алгоритм користувача deepfakes, який створив за його допомогою порнографічні ролики, в яких особи оригінальних акторів були реалістично підмінені на обличчя знаменитостей. При цьому такі алгоритми зазвичай обмежені тим, що працюють тільки для вже наявних роликів з зумовленими рухами і не дозволяють в інтерактивному режимі керувати рухами людини.


Дослідники з Facebook AI Research під керівництвом Яніва Тайгман (Yaniv Taigman) розробили алгоритм, здатний не тільки переносити рухи між відеороликами, а й змінювати їх за бажанням користувачів. В основі програми лежать два нейромережеві алгоритми Pose2Pose і Pose2Frame. Обидва алгоритми засновані на нейромережі pix2pixHD, розробленої в 2017 році для перенесення між зображеннями або відеозаписами різних типів. Крім того, автори використовували алгоритм DensePose, який витягує з почесного кадру з людиною тривимірну модель його тіла. Після створення моделі Pose2Pose перетворює вихідний запис з рухомою людиною на запис з моделлю її тіла, що рухається на чорному тлі. На цьому ж етапі нейромережа приймає від користувача команди, що змушують людину на відео рухатися в ту чи іншу сторону в почесному просторі. На основі пози на поточному кадрі і сигналу від користувача нейромережа створює наступний кадр, де людина вже знаходиться в іншому місці на кадрі.

На наступному етапі обробку проводить вже алгоритм Pose2Frame, що відповідає за перетворення технічного ролика з позою людини на реалістичний відеоролик. Для кожного кадру вона створює кілька нових, у тому числі кольоровий кадр з людиною і маски з виділеною людиною і тінями від неї. Ці кадри нейромережа об'єднує і накладає на заданий користувачем фон.

Експерименти з алгоритмом показали, що він здатний створювати досить реалістичні ролики, причому з різними діями людей, а не тільки грою в теніс. Однак на відео все ж можна бачити, що в процесі роботи нейромережі створюють безліч артефактів зображення.

Торік розробники з NVIDIA створили нейросетевий автосимулятор. За розрахунок структури ігрового світу в ньому відповідає ігровий движок, що створює 3D-моделі і послідовність кадрів із семантичною сегментацією областей. Таким чином отримується відеоролик, на якому об'єкти різних типів пофарбовані в певні кольори. Після цього нейросетевий алгоритм для перенесення зображень перетворює семантично сегментований ролик на реалістичний відеозапис.

COM_SPPAGEBUILDER_NO_ITEMS_FOUND