Розробники навчилися достовірно переносити інформацію між відео

Американські дослідники використовували модифіковану, «кругову» архітектуру генеративно-змагальної мережі (generative adversarial network, скорочено GAN), яка дозволяє переносити інформацію з одного відеокліпу на інший. За допомогою нього у дослідників вийшло перенести промову однієї людини на відеокліп з іншою, достовірно зберігаючи міміку останньої. Препринт статті та приклади роботи нейромережі доступні на сайті Університету Карнегі - Меллона.


Архітектура генеративно-змагальної мережі включає в себе дві нейромережі: генератор і дискримінатор. Перша створює об'єкт (наприклад, зображення), а друга - порівнює його з об'єктами з навчальної вибірки, доступу до якої у першої мережі немає. Процес триває до тих пір, поки дискримінатор не може розрізнити створений генератором об'єкт і об'єкт з навчальної вибірки.


Для правильного навчання і роботи такої мережі необхідний якийсь золотий стандарт: для дискримінатора в навчальній вибірці повинні бути приклади того, як повинен виглядати об'єкт. З завданнями перенесення інформації з одного об'єкта (наприклад, фотографії або відеокліпу) на інший, тому, такої мережі впоратися складніше. Минулого року вчені з Університету Берклі модифікували архітектуру GAN, зробивши її «круговою» (cycle-GAN): така мережа оцінює не весь об'єкт, а деякі його характеристики (наприклад, колір або форму предметів на знімку) і порівнює їх з характеристиками, доступними в навчальній вибірці. За допомогою такої архітектури можна, наприклад, перетворити коня на зебру, помінявши забарвлення тварини, або перетворити фотографію на картину в стилі імпресіонізму.

Робота такої нейромережі, тому, управляється даними, тобто працює в залежності від того, яку інформацію вона отримала на вхід і яку повинна дати на вихід. Дослідники з Університету Карнегі - Меллона під керівництвом Аайуша Банзаля (Aayush Bansal) використовували архітектуру кругової GAN для перенесення інформації з одного відеокліпу на інший. За допомогою нього їм, наприклад, вдалося перенести промову телеведучого Джона Олівера на відеокліп з телеведучим Стівеном Колбертом, зберігаючи достовірну міміку останнього.

Крім перенесення міміки однієї людини на обличчя іншої людини і мультиплікаційного персонажа дослідникам також вдалося накласти процес розквіту однієї квітки на іншу:

За допомогою такого підходу, на думку вчених, можна достовірно переносити часові та просторові характеристики між двома відеокліпами. При цьому отриманий результат, завдяки управлінню даними з навчальної вибірки, залишається натуральним.

Автори нової роботи - не перші, кому вдалося ефективно переносити інформацію між відеокліпами. Минулого року американські дослідники представили метод, який дозволяє вставляти промову у відеоряд, відтворюючи міміку того, хто говорить по артикуляції сказаного. Крім того, варто згадати не такий натуральний, але все ж досить відомий метод Deep Fakes.

COM_SPPAGEBUILDER_NO_ITEMS_FOUND