Нейромережа відтворила об'ємну модель мови за фотографією

Британські розробники навчили нейромережу відновлювати 3D-модель мови за фотографією людини. Потенційно така розробка може збільшити реалістичність комп'ютерних 3D-аватарів, розповідають автори статті, опублікованої на arXiv.org.


Існують алгоритми, що створюють по фотографії 3D-модель обличчя або набір з декількох десятків ключових точок, досить точно описують обличчя людини і її динаміку. Однак вони працюють лише з основними частинами особи, які видно постійно, і не вміють коректно відновлювати форму мови, багато в чому через те, що в датасетах для їх навчання мало фотографій з висунутою мовою. Разом з цим мова відіграє важливу роль у міміці та передачі емоцій і мови, тому виправлення цієї прогалини в алгоритмах - важливе завдання.


Розробники з Імперського коледжу Лондона і компанії Huawei на чолі зі Стефаносом Заферіу (Stefanos Zafeiriou) створили датасет для навчання алгоритмів, що складається з фотографій і 3D-моделей людей з висунутою мовою, і навчили нею нейромережу, яка відновлює об'ємну форму мови.

Автори роботи зібрали датасет в лондонському Музеї науки, використовуючи стенд 3dMD, що складається з декількох камер і джерел світла, встановлених з різних сторін від людини. За допомогою нього і 700 добровольців вони зібрали близько 1800 фотографій і відповідних їм 3D-моделей. Також вони попросили художників створити 720 синтетичних 3D-моделей голови з різними формами висунутої мови. Розробники зробили датасети доступними за запитом для інших дослідників.

Після збору датасета розробники створили алгоритм. Спочатку вони навчили автокодувальник, який створює з повної 3D-моделі стислу версію, за даними якої можна відновити майже ідентичну модель. Потім вони створили на основі згорточної нейромережі і цього автокодувальника модуль, що створює стиснуте 3D-уявлення з фотографії, і додали до нього ще один алгоритм, що створює зі стисненого уявлення повноцінну 3D-модель. Останню частину модуля вони створили на основі своєї попередньої розробки - системи створення трансформованих 3D-моделей голови (докладніше про них і їх застосування можна прочитати тут), описуваних параметрами, а не тільки тривимірною сіткою.

Навчивши алгоритм і перевіривши його роботу на датасеті з фотографіями знаменитих людей, автори наочно показали, що вона, на відміну від передових алгоритмів створення моделі особи, здатна якісно передавати форму мови:

Торік NVIDIA розробила алгоритм нейромережевого стиснення для відеодзвінків. Він відправляє на комп'ютер співрозмовника один кадр з людиною, а потім лише ключові точки особи, за якими потім на комп'ютері співрозмовника відновлюється повноцінні кадри.

COM_SPPAGEBUILDER_NO_ITEMS_FOUND