Китайці навчили нейромережу перетворювати промову на спів

Навчання 06 грудня 2023

Китайські розробники створили алгоритм, здатний синтезувати запис зі співом людини на основі запису з його звичайною промовою, або ж виконувати зворотне завдання і синтезувати мову на основі співу. Стаття з описом розробки, навчання та тестування алгоритму опублікована на arXiv.org.

Source Voice
Singing Sample
Female Singer1
Female Speaker1
Male Speaker1
Female Speaker2
Male Speaker2
Female Speaker3
Male Speaker3

В останні роки розвиток нейросетевих алгоритмів для синтезу мови, таких як WaveNet, дозволив створити системи, які досить складно відрізнити від реальних людей. Наприклад, Google в 2018 році показала голосового помічника для бронювання місць, який вміє не тільки реалістично говорити, але і вставляти слова, що додають мови правдоподібність, наприклад, «емм». У результаті компанії довелося також навчити алгоритм попереджати на початку розмови, що він не є людиною.

Як і у випадку з іншими нейросетевими алгоритмами, успіх систем синтезу мови багато в чому пов'язаний не з їх архітектурою, а з великим обсягом доступних даних для навчання. Створення системи синтезу співу являє собою схожу на перший погляд задачу, але насправді набагато складніше через значно меншу доступність даних. Багато розробників систем генерації співу останнім часом йшли шляхом зменшення обсягу необхідних зразків співу конкретної людини для навчання алгоритму, а тепер група китайських дослідників під керівництвом Дуна Юя (Dong Yu) з компанії Tencent створила систему, яка здатна створювати реалістичний аудіозапис зі співом, отримуючи на вхід тільки зразки мови.

Алгоритм заснований на попередній розробці Tencent - нейромережі DurIAN, призначеної для синтезу реалістичних відеороликів з розмовним ведучим на основі тексту. Перед DuarIAN у новому алгоритмі встановлено блок розпізнавання мови, який створює на основі вхідного аудіозапису фонеми із зазначенням їх тривалості, а також основні частоти. Ці дані потрапляють на блок, що складається з кодувальника і декодувальника, який формує мел-спектрограму, яку окрема нейромережа перетворює на аудіозапис. Алгоритм може працювати в обидва боки, конвертуючи мову в спів і навпаки.

Автори навчили алгоритм на двох власних датасетах, що складаються з півтори години співу і 28 годин мовлення. Після навчання розробники перевірили ефективність алгоритму на 14 добровольцях, які оцінювали реалістичність синтезованого співу і схожість тембру на вихідний запис. В результаті один з варіантів алгоритму набрав 3,8 бала з реалістичності та 3,65 за схожістю. На сайті авторів опубліковані зразки роботи нейромережі.

	Source Voice	Singing Sample
Female Singer1
Female Speaker1
Male Speaker1
Female Speaker2
Male Speaker2
Female Speaker3
Male Speaker3

Багато досліджень у галузі нейросетевих алгоритмів роботи зі звуком пов'язані з музикою. Наприклад, нейромережі вже вміють змінювати жанр, стиль та інструменти в піснях, а також виконувати більш практичні завдання, в тому числі доповнювати мелодію грою на барабанах.