Алгоритм для оцінки висоти звуку підкаже схожість з Фредді Мерк'юрі

Google Research представила FreddceMeter - додаток, який аналізує голос користувача під час виконання пісень групи Queen і визначає, наскільки виходить схоже на те, як їх співав Фредді Мерк'юрі. У його основі лежить алгоритм на основі самостійно навченого згорточного енкодера: він працює за принципом оцінки відносної, а не абсолютної висоти звуку. Детально про роботу алгоритму в основі програми розповідається в препринті, опублікованому на arXiv.org, а також у блозі Google Research. Спробувати FreddceMeter можна на офіційному сайті.


Оскільки висота звуку залежить від частоти його коливань, тобто добре визначеного фізичного параметра, виміряти його автоматично не так складно: для цього вже дуже давно використовуються, наприклад, програми для цифрової обробки сигналів (у них звук представляється у вигляді спектро- або осцилограми, коливання частот на яких видно неозброєним оком). Через порівняльну простоту вирішення завдання машинне навчання у визначенні висоти звуку майже не використовують - багато в чому через те, що таке рішення потребує великої кількості розмічених даних.


Тим не менш, алгоритми, що визначають висоту звуку автоматично і якісно, все одно розробляються і за своєю продуктивністю навіть можна порівняти з оригінальними способами обробки сигналу. Проблема, однак, залишається: для поліпшення роботи таких алгоритмів необхідно багато розмічених даних.

У новій роботі розробники з Google Research під керівництвом Біта Гфеллера (Beat Gfeller) вирішили проблему іншим способом: робота їх алгоритму SPICE (Self-supervised Pitch Estimation) можлива завдяки згорточному енкодеру, який аналізує частоту звуку за його спектрограмою. Алгоритм навчений на методі навчання без вчителя (а точніше - самостійного навчання), що не потребує великої кількості розмічених даних.

В основі алгоритму - ідея про те, що для людського слуху визначення відносної висоти звуку ефективніше визначення абсолютної: розпізнати інтервал між нотами до і ре легше, ніж дізнатися кожну з цих нот окремо (зрозуміло, не маючи абсолютного слуху). Саме тому алгоритм визначає висоту звуку відносно - порівнюючи частоти двох звуків, що йому давалися.

У підсумку, незважаючи на початкову відсутність інформації про вірну висоту звуку, новий алгоритм досяг точності в понад 90 відсотків для чистого звуку, що можна порівняти з раніше запропонованими методами і навіть перевершує їх.

Запропонований алгоритм дослідники використовували для створення FreddceMeter - програми, яка оцінює те, як користувач співає, порівнюючи параметри голосу з голосом вокалісти групи Queen Фредді Мерк'юрі. На вибір пропонується заспівати чотири пісні групи («Don't Stop Me Now», «We Are the Champions», «Bohemian Rhapsody» і «Somebody to Love»), а схожість голосу користувача з голосом Фредді оцінюється за шкалою від 0 до 100.

На честь Фредді Мерк'юрі, до речі, названо астероїд 17473 Freddiemercury. Він знаходиться в головному поясі астероїдів - області Сонячної системи між орбітами Марса і Юпітера.


COM_SPPAGEBUILDER_NO_ITEMS_FOUND