Google навчила нейромережу реалістично переносити портрети в нове оточення

Розробники з Google створили алгоритм, здатний реалістично вставляти портрет людини на новий фон. Під час перенесення він враховує розподіл джерел світла в новому оточенні і змінює освітлення на людині відповідним чином. Стаття про розробку буде представлена на конференції SIGGRAPH 2021.


Нейромережі давно дозволяють міняти фон на портретах і вирізати об'єкти з фотографій. Також це використовується для відеозаписів, наприклад, для заміни фону під час відеодзвінку. Для цього застосовують сегментацію, при якій алгоритм розмічає на зображенні області різних типів, наприклад, людину і фон. Виділений фрагмент з людиною потім можна легко перенести на новий фон. Але при простому перенесенні навряд чи вийде реалістична фотографія, тому що освітлення на тлі і на фрагменті з портретом буде різнитися.


В останні роки з'явилися алгоритми, що дозволяють імітувати різне освітлення на фотографії. Наприклад, у додатку Google Photo на Android користувач може змінювати напрямок світла. Рохіт Пандей (Rohit Pandey), Серхіо Ортс-Есколано (Sergio Orts-Escolano) і Хлої Лежандр (Chloe LeGendre) з дослідницького підрозділу Google, які брали участь у розробці цього алгоритму, створили новий алгоритм для заміни фону, який вміє автоматично реалістично аналізувати освітлення на новому портреті, розподілили.

На початку роботи алгоритм отримує портретну фотографію і за допомогою згорточної нейромережі відділяє фрагмент з людиною на передньому плані від фону. Потім вирізаний портрет і новий фон для нього передається на модуль переосвітлення, що складається з декількох окремих алгоритмів:

Отримавши виділений фрагмент з людиною, модуль переосвітлення спочатку створює для нього карту нормалів до поверхні, використовуючи згорточну нейромережу. На наступному етапі аналогічна за архітектурою нейромережа бере карту нормалів і виділений фрагмент, і створює на їх основі карту розподілу дифузної відображальної здатності. У результаті утворюється зображення, позбавлене впливу зовнішнього освітлення з вихідної фотографії.

Паралельно з цим модуль переосвітлення створює для виділеного фрагмента карти освітлення. Для цього він отримує обчислену карту нормалів до поверхні і нове фонове зображення, пропущене через дифузний або дзеркальний фільтр. У результаті алгоритм формує карти дифузного і дзеркального освітлення людини на фотографії, вирахувані відповідно до освітленості з нового фону. Після цього відбувається фінальний етап, при якому алгоритм, використовуючи ці карти освітлення, вихідне зображення і карту розподілу дифузної відображальної здатності, створює новий портрет, освітлення на якому відповідає новому фону.

Для навчання алгоритму розробники скористалися стендом, створеним для іншої роботи зі зміни освітлення в 2019 році. Він являє собою майже сферичну конструкцію, в центрі якої стоїть людина і на якій закріплені 331 блок освітлення з кольоровими світлодіодами, 42 звичайні камери і 16 камери глибини. Це дозволяє створювати практично будь-яке освітлення і захоплювати зображення людини з різних ракурсів і з високою точністю. Детальніше про пристрій стенду можна прочитати в нашій замітці, присвяченій цій роботі.

Щоб зібрати великий і генералізований датасет, автори скористалися допомогою 70 добровольців різної статі, віку і кольору шкіри. Вони по черзі стояли в стенді, будучи одягненими в різний одяг і висловлюючи дев'ять найпоширеніших емоцій. Оскільки найчастіше люди на фотографіях стоять обличчям до камери, тільки 10 відсотків датасета було знято з використанням всіх камер стенду, а інші 90 відсотків автори зняли з шести фронтальних ракурсів. Крім власних портретних знімків розробники скористалися приблизно 200 фоновими зображеннями, взятими з сайту HDRIHaven. Використовуючи їх, автори створили близько восьми мільйонів штучних портретів, поєднуючи зняті в стенді портети з фрагментами фонових зображень.


Навчивши алгоритм, дослідники порівняли його роботу з аналогами як суб'єктивно, так і використовуючи кількісні метрики. Для цього вони скористалися знятими з різним освітленням фотографіями добровольців, не використаними під час навчання, і порівнювали їх з переосвітленими алгоритмом знімками з абсолютного середнього відхилення, середньоквадратичної помилки, індексу структурної схожості та індексу сприймається схожість LPIPS. За всіма цими метриками новий алгоритм перевершив два попередніх (1, 2), з якими автори проводили порівняння.

Торік американські розробники поліпшили нейросетеву заміну фону на відео. Ключова особливість цього алгоритму полягає в тому, що він вимагає для своєї роботи кадр, в якому людина вийшла з поля огляду камери і тим самим показала фонові об'єкти за собою.

COM_SPPAGEBUILDER_NO_ITEMS_FOUND