Китайці навчили нейромережу перетворювати промову на спів

Китайські розробники створили алгоритм, здатний синтезувати запис зі співом людини на основі запису з його звичайною промовою, або ж виконувати зворотне завдання і синтезувати мову на основі співу. Стаття з описом розробки, навчання та тестування алгоритму опублікована на arXiv.org.

В останні роки розвиток нейросетевих алгоритмів для синтезу мови, таких як WaveNet, дозволив створити системи, які досить складно відрізнити від реальних людей. Наприклад, Google в 2018 році показала голосового помічника для бронювання місць, який вміє не тільки реалістично говорити, але і вставляти слова, що додають мови правдоподібність, наприклад, «емм». У результаті компанії довелося також навчити алгоритм попереджати на початку розмови, що він не є людиною.


Як і у випадку з іншими нейросетевими алгоритмами, успіх систем синтезу мови багато в чому пов'язаний не з їх архітектурою, а з великим обсягом доступних даних для навчання. Створення системи синтезу співу являє собою схожу на перший погляд задачу, але насправді набагато складніше через значно меншу доступність даних. Багато розробників систем генерації співу останнім часом йшли шляхом зменшення обсягу необхідних зразків співу конкретної людини для навчання алгоритму, а тепер група китайських дослідників під керівництвом Дуна Юя (Dong Yu) з компанії Tencent створила систему, яка здатна створювати реалістичний аудіозапис зі співом, отримуючи на вхід тільки зразки мови.

Алгоритм заснований на попередній розробці Tencent - нейромережі DurIAN, призначеної для синтезу реалістичних відеороликів з розмовним ведучим на основі тексту. Перед DuarIAN у новому алгоритмі встановлено блок розпізнавання мови, який створює на основі вхідного аудіозапису фонеми із зазначенням їх тривалості, а також основні частоти. Ці дані потрапляють на блок, що складається з кодувальника і декодувальника, який формує мел-спектрограму, яку окрема нейромережа перетворює на аудіозапис. Алгоритм може працювати в обидва боки, конвертуючи мову в спів і навпаки.

Автори навчили алгоритм на двох власних датасетах, що складаються з півтори години співу і 28 годин мовлення. Після навчання розробники перевірили ефективність алгоритму на 14 добровольцях, які оцінювали реалістичність синтезованого співу і схожість тембру на вихідний запис. В результаті один з варіантів алгоритму набрав 3,8 бала з реалістичності та 3,65 за схожістю. На сайті авторів опубліковані зразки роботи нейромережі.

 

Source Voice

Singing Sample

Female Singer1

   

Female Speaker1

   

Male Speaker1

   

Female Speaker2

   

Male Speaker2

   

Female Speaker3

   

Male Speaker3

   

Багато досліджень у галузі нейросетевих алгоритмів роботи зі звуком пов'язані з музикою. Наприклад, нейромережі вже вміють змінювати жанр, стиль та інструменти в піснях, а також виконувати більш практичні завдання, в тому числі доповнювати мелодію грою на барабанах.

COM_SPPAGEBUILDER_NO_ITEMS_FOUND