Нейромережа передбачила рух людини по відео

Американські розробники створили алгоритм, який, отримуючи відео з діями людини, пророкує його наступні дії у вигляді анімованої 3D-моделі. Наприклад, він досить точно пророкує, як буде відбуватися кидок м'яча, побачивши тільки початок замаху руки, розповідають автори препринту, опублікованого на arXiv.org. Доповідь про розробку буде представлена на конференції ICCV 2019.


Побачивши людину, яка робить будь-яку дію, наприклад, що йде по вулиці, ми можемо в загальних рисах уявити собі, що вона буде робити далі і як це буде виглядати. Для комп'ютерних алгоритмів це завдання досить нетривіальне. Розробники почали вирішувати цю проблему давно і в цій області вже є деякі напрацювання, але вони мають обмеження. Наприклад, деякі алгоритми працюють тільки з одним кадром і не враховують попередні стани людини, а також не створюють повноцінну анімовану 3D-модель.


Група розробників з Каліфорнійського університету в Берклі під керівництвом Джитендри Маліка (Jitendra Malik) створила алгоритм, здатний за послідовністю кадрів безпосередньо передбачити майбутню поведінку людини у вигляді 3D-моделі.

Алгоритм складається з декількох частин і етапів, але в ньому можна виділити два ключових етапи. Як вихідні дані він отримує послідовність кадрів з людиною, що рухається. Для кожного кадру залишкова згорточна нейромережа ResNet-50 створює вектор, що описує поточний стан людини. На основі послідовності цих векторів нейросетевий кодувальник створює єдине уявлення, яке описує рухи людини з початку ролика до поточного кадру.

Потім ще одна нейромережа створює на основі безлічі таких уявлень до поточного кадру уявлення для наступного кадру. Потім цей процес повторюється, але як вихідні дані вже використовуються не тільки справжні уявлення, а й спрогнозовані. Кожне з цих уявлень віддається нейромережі, яка видає 82 параметри, що описують 3D-модель. Один із наслідків використання 3D-моделі полягає в тому, що вона дозволяє побачити майбутні дії людини з будь-якого ракурсу.

Розробники навчили алгоритм на чотирьох публічно доступних датасетах, у тому числі Human3.6M, що містить пари з відео і зіставлених анімованих 3D-моделей. В основному ці датасети містили дані про спортивні дії, наприклад, кидки м'ячів. В результаті авторам вдалося навчити алгоритм досить точно передбачати рухи людей, хоча деякі розбіжності з реальними відео все ж є.

Минулого року інші американські розробники створили нейромережу, здатну передбачати рух 3D-моделі собаки по відео від першої особи на п'ять кадрів вперед.

COM_SPPAGEBUILDER_NO_ITEMS_FOUND