Віртуальний будинок навчив нейромережу описувати побутові дії на відео

Дослідники з США, Канади та Словенії створили віртуальне середовище для навчання алгоритмів побутовим діям. Крім того, вони зібрали датасет з безлічі програм, що описують побутові сценарії у вигляді послідовностей базових дій, а також навчили нейромережу самостійно створювати подібні програми з відео або текстового опису простою мовою. Робота буде представлена на конференції CVPR.


Звичайні для людини завдання, наприклад, «принести предмет із сусідньої кімнати», складні для розуміння робота, тому що насправді вони складаються з безлічі дрібних підзадач, про які люди не замислюються. Для того, щоб робот міг виконувати такі завдання можна або вручну прописати послідовність дій, але в такому випадку він буде вміти виконувати тільки чітко визначене коло дій, або навчити його розуміти високорівневі команди і самостійно розбивати їх на елементарні дії.


Дослідники зі США, Канади та Словенії під керівництвом Антоніо Торральба (Antonio Torralba) створили для навчання алгоритмів віртуальне середовище під назвою VirtualHome. Вона складається з декількох моделей будинків з безліччю інтерактивних предметів, з якими можуть взаємодіяти віртуальні персонажі. Варто зазначити, що раніше інші дослідники вже створювали подібні віртуальні середовища, однак автори нової розробки обрали інший підхід для навчання алгоритмів.

Для початку розробники зібрали великий датасет з детально описаних побутових дій. Для цього вони спочатку попросили добровольців докладно описати послідовність дій для будь-якого побутового завдання, наприклад, приготування чашки кави. Після цього добровольці перетворили цей текстовий опис, зрозумілий людині, в опис у візуальному середовищі програмування, що складається зі стандартних елементів, достатніх для виконання завдання:

В результаті дослідники отримали 2821 програму (вони доступні на сайті проекту), що описує безліч дій, які люди виконують вдома. Крім того, розробники створили за допомогою ймовірнісної граматики ще понад п'ять тисяч програм, які потім добровольці описали словами. Після цього автори підготували стандартні анімації для персонажів, що описують 12 найпопулярніших дій, таких як ходьба, захоплення предмета, відкриття дверцят і подібні до них. Для руху по будинку використовувався стандартний планувальник маршруту з ігрового движку Unity.

Створивши великий датасет з безлічі анімацій побутових дій дослідники створили алгоритм, який вирішує зворотне завдання - генерує описуючу дію програму виходячи з відеозапису або текстового опису. Для цього вони використовували алгоритм з декількох нейромереж, які проводять семантичну сегментацію кадру з відео і видають ймовірність тієї чи іншої базової дії, або аналізують текстовий опис. Після цього дві рекуррентні нейромережі перетворюють ці дані на програму.

Протестувавши алгоритм на датасеті автори показали, що він справляється із завданням краще випадкового вибору програми із зібраного набору і декількох інших методів. Автори вважають зібраний ними датасет і середовище для навчання може бути використане для інших застосувань у майбутніх роботах і збираються викласти вихідний код і натреновані моделі на GitHub.

Торік американські розробники створили алгоритм, що дозволяє роботам краще розуміти команди природною мовою. Фахівці навчили алгоритм не тільки переводити команди в дії, а й аналізувати рівень їх абстракції. Після навчання робот правильно інтерпретував команди в 90 відсотках випадків протягом однієї секунди


COM_SPPAGEBUILDER_NO_ITEMS_FOUND