Нейромережі вистачило відео з монозвуком для створення бінаурального запису

Американські дослідники навчили алгоритм перетворювати монофонічний запис звуку на бінауральний, що дозволяє слухачеві відчувати ефект реалістичного об'ємного звуку. Особливість методу полягає в тому, що як вихідні дані алгоритм використовує відеозапис, на якому він знаходить джерело звуку, що дозволяє створити двоканальний аудіозапис, розповідають автори статті, опублікованої на arXiv.org. Крім того, дослідники створили алгоритм, який розділяє аудіодоріжку на канали, що відповідають різним інструментам, використовуючи для цього відеоряд.


Людина може визначати не тільки самі звуки навколишнього світу, а й приблизне розташування їхніх джерел. Це можливо завдяки тому, що людина має два вуха, розділені певною відстанню, а також мають асиметричну форму. В результаті, звук доходить до вух не одночасно і з різною інтенсивністю. Для відтворення подібного об'ємного сприйняття світу існує метод бінаурального запису, при якому використовуються два мікрофони, розташовані з різних сторін повноцінної моделі голови або всередині двох моделей вух.


Дослідники з Facebook AI Research розробили метод, що дозволяє відтворити бінауральний запис, маючи як вихідні дані тільки одноканальний аудіозапис і відеоряд.

Алгоритм, розроблений дослідниками, складається з двох основних компонентів - згорточних нейромереж U-Net і ResNet. Спочатку стереоаудіозапис об'єднується в монозапис, який піддається віконному перетворенню Фур'є. На цьому кроці алгоритм створює з вихідного сигналу його спектрограму, яка подається на перший шар U-Net. Паралельно з цим відповідний кадр з відео подається спочатку на нейромережу ResNet-18, де перетворюється на характеристичний вектор. Він, у свою чергу, подається на один з шарів U-Net. Таким чином, у цій мережі відбувається аудіовізуальний аналіз, в результаті якого утворюється нова спектрограма. Після цього алгоритм проводить зворотне віконне перетворення Фур'є, отримує новий моноаудіозапис, з якого розраховується два канали - правий і лівий.

Для навчання алгоритму дослідники зібрали установку, що складається з бінаурального мікрофона (він складається з двох мікрофонів, з накладеними на них моделями вух) і закріпленої нижче камери. Завдяки цій установці автори змогли зібрати датасет, що складається із записів гри на музичних інструментах із загальною тривалістю 6,3 години. Нейромережа ResNet була навчена не на цьому наборі, а на відомому датасеті поширених об'єктів ImceNet.

Дослідники перевірили ефективність свого методу, порівнявши його з трьома його варіаціями і ще одним методом, розробленим іншими дослідниками. Для цього вони використовували чотири датасети, зібрані з роликів з вулиць, кліпів в YouTube та інших даних. Перевіривши роботу алгоритмів на цих даних, вони порівняли спектрограми сигналу, отриманого в результаті роботи алгоритму, і реального стереосигналу. Новий метод досяг найменшої різниці на всіх чотирьох датасетах. Такі ж результати алгоритм показав у дослідженні уподобань добровольців.

Також дослідники використовували свій алгоритм для поділу сигналів, що належать різним інструментам. Але в якості вихідних даних він отримував вже пару створених бінауральних аудіозаписів і відеороликів. В результаті алгоритм навчився виконувати і це завдання. Результати роботи обох алгоритмів можна побачити на демонстраційному відеоролику.

Раніше інша група дослідників з Facebook Research розробила нейросетевий алгоритм, здатний змінювати стиль, жанр і набір інструментів на аудіозаписи. Розробники продемонстрували можливості методу на різних музичних стилях і виконавцях, наприклад, перетворивши симфонію Моцарта на запис піаніста, який грає музику Бетховена.


COM_SPPAGEBUILDER_NO_ITEMS_FOUND