Нейромережа Facebook поліпшила якість фовеального рендерінга

У галузі VR-шоломів існує метод фовеального рендерінгу, при якому істотна частина ресурсів витрачається на вузьку область зображення, на яку дивиться людина, а інші області створюються з набагато меншою якістю. Розробники з Facebook створили алгоритм, який ефективно відновлює якісне зображення в областях, відмальованих з низькою якістю. Стаття була представлена на конференції SIGGRAPH Asia 2019.


Для комфортного занурення користувача у віртуальне середовище VR-шолом повинен мати високу роздільну здатність, працювати з високою частотою (комфортним показником вважається частота від 90 герц і вище), а також розраховувати зображення для всього поля зору навколо голови. Це призводить до того, що VR-шоломи вимагають для своєї роботи підключення до досить потужного комп'ютера, а автономні шоломи на поточному рівні розвитку технологій значно відстають за характеристиками від підключених.


Як рішення інженери вже кілька років розвивають технологію фовеального рендерінгу зображення для VR-шоломів, заснованого на особливостях людського зору. Справа в тому, що ми бачимо чіткою лише невелику область в центрі (фовеальній зоні) нашого поля зору, а периферійні області зору захоплюють набагато менше деталей. Відповідно, обчислювальні ресурси можна заощадити, відстежуючи напрямки погляду і відмальовуючи з високою роздільною здатністю лише центральну область.

Дослідники з Facebook Reality Labs під керівництвом Гізем Руфо (Gizem Rufo) створили нейромережу, здатну брати зображення з чіткою фовеальною зоною і рідкісними пікселями в периферійній зоні, і відновлювати його до якісного зображення, яке для звичайного користувача схоже на вихідне. Алгоритм працює на основі згорточної нейромережі U-Net, що має структуру кодувальника-декодувальника.

Оскільки нейромережа працює з відео - тобто послідовністю семантично пов'язаних між собою кадрів - результати відновлення сусідніх кадрів повинні бути узгоджені між собою. Для цього розробники додали в алгоритм рекурентні блоки, які використовують стан мережі на поточному кадрі для відновлення наступного.

Крім того, розробники використовували для навчання популярну архітектуру генеративно-змагальної нейромережі, при якій результат роботи генератора (основної нейромережі) віддається дискримінатору (перевіряючій мережі), який намагається визначити те, справжнє це зображення або створене алгоритмом. Завдяки цьому обидві частини постійно навчаються і генератор з часом значно підвищує якість своєї роботи.

Дослідники навчали алгоритм на датасеті з різних відеозаписів, наприклад, з людьми або тваринами. Вихідні відео оброблялися алгоритмом, який випадковим чином переміщував напрямок погляду і прав з кадру практично всі пікселі поза центральною областю зору. В результаті розробникам вдалося навчити алгоритм відтворювати кадри з досить високою якістю. Наприклад, дослідження на добровольцях показало, що в міру стиснення (збільшення частки стертих пікселів) помітність артефактів зображення підвищується, але лише при стисненні в 37 разів вона досягає 50 відсотків.

Розробники зазначають, що використовували для роботи нейромережі комп'ютер з чотирма відеокартами NVIDIA Tesla V100. Однак потужність цих відеоускорителей настільки висока, що при використанні для звичайного рендерінгу з частотою 90 герц автори, ймовірно, могли б отримати набагато більш якісне зображення, ніж при відновленні за допомогою нейромережі, тому мета роботи, мабуть, носить виключно дослідницький характер.


Нещодавно інженери з NVIDIA зібрали прототип шолома доповненої реальності з апаратним фовеальним рендерінгом. Для цього в шоломі встановлено два окремих екрани, один з яких має широке поле зору, а другий набагато більш вузьке, але при цьому володіє порівнянною роздільною здатністю.

COM_SPPAGEBUILDER_NO_ITEMS_FOUND