Нейромережа навчили змішувати кілька стилів в одному зображенні

Команда дослідників з Google створила глибоку нейронну мережу для обробки фото і відео з використанням відразу декількох стилів, наприклад, скопійованих з картин відомих художників. Нова система дозволяє користувачеві в реальному часі змінювати пропорції, в яких «змішуються» стилі, при цьому немає необхідності щоразу заново тренувати нейронну мережу, як цього вимагали попередні аналогічні розробки. Деталі дослідження викладені у вигляді препринту на arXiv.org.Задача про перенесення стилів з одного зображення на інше є приватним випадком більш загальної проблеми: як розділити картинку на «стиль» і «зміст»? Різні рішення цієї проблеми призводять до створення програм, що розпізнають об'єкти на фотографіях, що описують картинки текстом або домальовують очі всюди, де тільки зможуть. Ці ж алгоритми лежать в основі додатків на кшталт Prisma, що дозволяють швидко обробляти фотографії, використовуючи заздалегідь визначений набір стилів. Вся ця область активно розвивається близько 15 років, проте лише недавно розробники досягли значних успіхів завдяки використанню глибинних нейромереж. У 2015 і 2016 роках з'явилися основоположні роботи, в яких описувалися алгоритми з «видобутку» стилів і створення нових зображень на їх основі. Перші рішення давали прекрасні результати, але на створення однієї картинки йшло багато часу. Наступні розробки значно прискорили роботу нейромережі, проте кожна мережа працювала лише з одним стилем: їх не можна було перемішати або швидко додати ще один. У новій роботі автори використовували наступну ідею: стилі багатьох художників (особливо імпресіоністів) схожі між собою в певних деталях, наприклад, формі мазка. Більш того, якщо потрібно використовувати стилі різних картин одного і того ж автора, відмінності в стилях, ймовірно, будуть полягати тільки в колірній гамі. Це означає, що для кожної нової картини немає необхідності переучувати всю мережу заново, а можна лише трохи «зрушити» її параметри, не приносячи в жертву якість підсумкового зображення. Вчені побудували модель, яка тренує нейромережу відразу на наборі картин, намагаючись якомога більше параметрів зберегти загальними, а те, що розрізняється (кольори, наприклад), висловити у вигляді простої функціональної залежності. Розраховуючи, що такий підхід спрацює як мінімум для різних картин одного і того ж художника, автори в результаті переконалися, що їх модель успішно справляється і з добіркою полотен абсолютно різних авторів. При цьому завдяки низці оптимізацій нова нейромережа не програє попереднім системам (які працювали лише з одним стилем) в плані швидкодії. Додатковою перевагою нової нейромережі стала можливість змішувати відразу кілька стилів в одному зображенні. Це досягається якраз завдяки тому, що різні стилі в новій моделі - це лише лінійне зрушення параметрів уздовж якоїсь осі. Таким чином, навіть при обробці відео можна в реальному часі змінювати пропорції різних стилів. За словами авторів, їх новий підхід демонструє, що в світі живопису є свій «словник», завдяки якому можна успішно навчати нейромережі для роботи з широкою вибіркою різних стилів і зображень.


COM_SPPAGEBUILDER_NO_ITEMS_FOUND