Нейромережі навчилися анімувати «Флінтстоунів» за текстовим описом

Американські розробники навчили нейромережі за текстовим описом створювати короткі анімовані ролики з персонажами мультсеріалу «Флінтстоуни». Для навчання моделі CRAFT використовувався масив з більш ніж 25 тисяч вручну розмічених роликів, йдеться в статті, доступній на arXiv.org.


Останнім часом розробники все частіше експериментують з нейромережами, що генерують контент на основі текстового опису. Наприклад, нещодавно Microsoft представила програму, яка може створювати картинку на основі тексту. Однак зі статичною картинкою працювати значно легше, ніж з рухомими об'єктами, тому в області генерації анімованих зображень за текстовим описом поки що не було помітного прогресу.


Фахівці з Інституту штучного інтелекту Аллена та Іллінойського університету в Урбані-Шампейні представили модель CRAFT (Composition, Retrieval and Fusion Network, «складова, що видобуває і споює нейромережу»), яка здатна генерувати анімовані сцени на основі текстового опису сцени і дій персонажів. CRAFT складається з трьох різних нейромереж, які дозволяють виділяти в текстовому описі відповідну композицію сцени, сутності (сюди входять як одушевлені, так і неживі об'єкти) і фон.

Для навчання розробники використовували 25184 вручну розмічених трисекундних (75 кадрів) роликів зі сценами з мультсеріалу «Флінтстоуни», при розмітці яких автори вказували хто присутній на екрані і що він робить. CRAFT на навчальній вибірці «» розуміє «» хто і що робить, і потім використовує відповідні частини роликів при генерації нових сцен, а не малює картинку з нуля. Результати роботи програми після навчання можна оцінити на демонстраційного відео, опублікованого розробниками:

З ролика видно, що програма іноді видає помилки на різних рівнях виконання: наприклад, Вільма розмовляє по телефону, повернувшись обличчям в інший бік, а Фред в одному з роликів біжить на місці. Тим не менш, CRAFT демонструє помітний прогрес в області генерації відеоконтенту з текстового опису - багато сцен виглядає саме так, як собі їх могла б уявити людина, яка прочитала текст. Варто відзначити, що поки що можливе застосування представленого методу сильно обмежує необхідність в ручній розмітці великого обсягу даних.

Існують й інші нейромережі, які допомагають обробляти і генерувати відео. Наприклад, в Індійському технологічному інституті нещодавно розробили алгоритм, який може відтворити рух на відео з розмитого кадру.

COM_SPPAGEBUILDER_NO_ITEMS_FOUND