Disney навчила алгоритм якісно розфарбовувати відеоролики

Розробники з Disney Research створили алгоритм для якісного розмальовування монохромних відеороликів. При виборі кольорів він враховує сусідні кадри, а також проводить їх семантичний аналіз, розповідають автори статті, опублікованої на arXiv.org. Розробка була представлена на конференції BMVC 2018.


Оскільки кольорова зйомка стала масово застосовуватися приблизно з середини 20-го століття, фахівці з обробки зображень розробили методи і автоматичні алгоритми для розмальовування монохромних зображень з більш раннього часу. Крім того, існують і способи відновлення кольору на відеороликах, але це завдання набагато складніше через те, що кольори областей на сусідніх кадрах повинні бути узгоджені між собою.


Дослідники з Disney Research під керівництвом Маркуса Гросса (Markus Gross) створили новий алгоритм, що дозволяє домогтися більш реалістичного розмальовування відеороликів завдяки більшій узгодженості сусідніх кадрів. На вході алгоритму необхідно отримати один кольоровий кадр. Для обробки послідовності монохромних кадрів розробники вибрали гібридну схему, в якій початкову обробку проводять дві нейромережі, що поширюють колір вихідного кадру локально і глобально.

Під локальним розповсюдженням автори мають на увазі послідовну обробку від першого (кольорового) кадру до другого, від другого до третього і так далі. Для цього алгоритм аналізує деформацію зображення між двома кадрами і відповідним чином переносить колір. Проблема цього підходу полягає в тому, що з кожним новим кадром перенесення кольору стає все менш надійним. Через це разом з нейромережею для локального розповсюдження кольору працює алгоритм глобального розповсюдження, який пофарбовує кожен новий кадр на підставі вихідного кольорового кадру. Оскільки на далеких від вихідного зображення кадрах розташування об'єктів може сильно відрізнятися, глобальний алгоритм використовує семантичний аналіз для перенесення кольору між одними і тими ж об'єктами на різних кадрах.

Після цього пари кольорових кадрів, оброблені різними алгоритмами, подаються разом з монохромним кадром на вхідний шар ще однієї нейромережі, яка «з'єднує» зображення і видає остаточний кадр.

Розробники навчали і тестували алгоритм на парах зображень з датасета DAVIS і роликів з YouTube. В результаті вони навчили його якісно розфарбовувати ролики довжиною в кілька десятків кадрів. Автори порівняли ефективність системи з аналогічними алгоритмами для розмальовування зображень і відео. Новий алгоритм показав більше відношення сигналу до шуму, що відповідає меншій кількості помилок при перенесенні. Крім того, це відношення падає при збільшенні кількості кадрів не так швидко, як при використанні інших методів.

За останній час багато груп дослідників представили різні нейросетеві алгоритми, призначені для роботи з відеозаписами. Наприклад, індійські розробники навчили нейромережу створювати короткі реалістичні ролики на основі одного кадру, а дослідники з NVIDIA створили алгоритм для реалістичного перенесення стилю між відеороликами. Наприклад, вони показали, як він створив на основі семантично сегментованого відео реалістичний відеозапис поїздки на автомобілі.

COM_SPPAGEBUILDER_NO_ITEMS_FOUND