Новий сервіс Google знайде «відображення» користувача на знімках інших людей

Компанія Google представила експериментальний сервіс Move Mirror, що дозволяє побачити своє «відображення» на знімках інших людей. Він використовує відео з веб-камери ноутбука для розпізнавання пози користувача, шукає людей в такій же позі в базі даних, що складається з 80 тисяч фотографій, і створює спільну GIF-анімацію з цих даних, розповідають розробники в блозі TensorFlow.


Раніше для автоматизованого визначення пози людини і положення її кінцівок необхідно було використовувати велику кількість датчиків, попередньо закріплених у певних точках тіла, або візуальні маркери, положення яких відстежує одна або кілька камер. В останні роки розробникам систем комп'ютерного зору вдалося довести точність своїх алгоритмів до порівнянного рівня, але при цьому вони не вимагають додаткових пристосувань і працюють зі звичайними відеозаписами людей. Ці алгоритми навчають на великих датасетах, що складаються з зображень людей в різних позах і зіставлених кожному зображенню наборів точок, що відображають положення кистей рук, ліктів та інших частин тіла. У результаті алгоритм вчиться визначати залежність між отримуваним зображенням і позою людини на ньому, і в подальшому може самостійно створити для вхідного зображення карту точок.


Майже завжди ці алгоритми застосовують для серйозних дослідницьких завдань, таких як автоматичне визначення насильницьких дій у натовпі, але розробники з Google створили простий сервіс, що наочно показує роботу такого алгоритму в розважальній формі. Вони описують сервіс як аналог дзеркала, що дозволяє в реальному часі бачити не тільки самого себе, але й інших людей у такій же позі.

В основі сервісу лежать два алгоритми, один з яких розпізнає позу людини і становить спрощену модель її скелета, а другий шукає максимально схожу позу на безлічі інших знімків. За розпізнавання пози відповідає відкритий алгоритм PoseNet, розроблений раніше фахівцями з Google. Одна з його особливостей полягає в тому, що він використовує бібліотеку TensorFlow.js, завдяки чому користувачеві не потрібно встановлювати на комп'ютер додаткові програми, оскільки всі обчислення виробляються через браузер на комп'ютері користувача. Для нормальної роботи сервісу потрібна сучасна відеокарта, інакше сервіс буде обробляти всього кілька кадрів на секунду.

Другий алгоритм приймає створену модель тіла користувача і шукає максимально схожу модель в наборі фотографій інших людей. Розробники створили з безлічі відеозаписів 80 тисяч знімків і за допомогою того ж алгоритму PoseNet розмітили на кожному знімку модель тіла людини. Для того, щоб пошук збігів за такою кількістю знімків був швидким, розробники використовували VP-дерево. У результаті на досить потужному комп'ютері пошук людей у схожих позах відбувається за десятки мілісекунд, завдяки чому відображення схожих фотографій у сервісі відбувається в реальному часі. Результат роботи сервісу можна записати у вигляді GIF-анімації і завантажити до себе на комп'ютер.

Розробники з Google не вперше використовують алгоритми машинного навчання для створення незвичайних візуальних експериментів. Наприклад, у 2016 році вони представили сервіс Land Lines. У ньому користувач малює лінію, після чого сервіс знаходить об'єкт схожої форми на супутникових знімках, наприклад, звивистий берег або дорожню розв'язку.

COM_SPPAGEBUILDER_NO_ITEMS_FOUND