Синтетизований нейромережею голос обдурив людей і алгоритми

Вільно доступні алгоритми для синтезу мови здатні обдурити як алгоритми для ідентифікації людини за голосом, так і звичайних людей, з'ясували американські дослідники. Вони використовували два алгоритми, які на основі коротких записів голосу створюють нову промову, «виголошену» тією ж людиною. Стаття опублікована на arXiv.org.


Поряд з розпізнаванням осіб, деякі сервіси застосовують алгоритми для ідентифікації голосу. Наприклад, розумні колонки Яндекса вміють дізнаватися голос власника, щоб враховувати рекомендації тільки для його запитів, а WeChat дозволяє увійти в акаунт за допомогою голосу. Розробники цих та інших сервісів виходять з того, що людський голос унікальний, тому його можна використовувати як надійний доказ, що система розмовляє саме з господарем аккаунта або пристрою. Але алгоритми синтезу мови, особливо нейросетеві, швидко розвиваються, і є як відкриті алгоритми, так і комерційні сервіси, що дозволяють за досить невеликим обсягом записів (щодо того, який використовується для базової моделі) створити модель, що якісно копіює голос конкретної людини. І якщо алгоритми розпізнавання осіб часто враховують обсяг, тому обдурити їх простим дипфейком не вийде, то для голосу немає можливості врахувати якийсь подібний додатковий фактор.


Дослідники з Чиказького університету під керівництвом Емілі Венгер (Emily Wenger) вирішили оцінити прогрес алгоритмів копіювання голосу і перевірити їх роботу. Обрана модель атаки передбачає, що у зловмисника є доступ до зразків голосу жертви у вигляді публічно доступних аудіо або відеозаписів, або можливість поспілкуватися з ним, щоб записати промову. Використовуючи ці дані, він може дообучити голосову модель, щоб та синтезувала бажаний голос. При цьому автори зробили реалістичне обмеження - для формування копіюючої моделі у зловмисника є не більше п'яти хвилин записів. Також вони вирішили використовувати тільки публічно доступні алгоритми. Дослідники вибрали два таких алгоритми: SV2TTS и AutoVC. Для навчання моделей автори використовували записи мови 90 людей з трьох публічних датасетів: VCTK, LibriSpeech и SpeechAccent.

Дослідники перевіряли якість синтезованих записів мови на відкритому програмному забезпеченні Resemblyzer, а також комерційних сервісах: Microsoft Azure, WeChat и Amazon Alexa. Найкраще себе показали моделі, навчені на базі SV2TTS і датасета VCTK. Для Resemblyzer частка успішних атак становила 50,5 13,4%, для Azure - 29,5 32%. Оскільки у WeChat і Alexa немає відкритого API, їх дослідники тестували інакше. Вони залучили 14 добровольців, які зачитували текст для навчання моделі, а потім перевіряли систему за допомогою синтезованих SV2TTS аудіозаписів - намагалися увійти в акаунт WeChat або просили Alexa виконати персоналізовану команду. (всього було 6 фейкових аудіозаписів), а Alexa так чи інакше вдалося обдурити всім 14 добровольцям, в середньому успішність склала 62,2 відсотка.

Після оцінки алгоритмів, дослідники перевірили людей, запросивши 200 добровольців. Їм давали прослухати пари аудіозаписів і запитували, хто їх промовив: одна людина або різні. У парах було три варіанти, про які учасники не знали: два записи від однієї людини; дві від різних; запис від однієї людини і підроблювальної її голос моделі. З'ясувалося, що в половині випадків добровольці не зуміли розрізнити справжній голос від підробленого. Їм також давали записи відомих людей і підроблені зразки їхньої промови. У такому випадку обман не змогли розпізнати тільки в 20 відсотків випадків.

Поки візуальним нейросетевим підробкам приділяють набагато більше уваги. Так, деякі регіони і країни забороняють дипфейки, а технологічні компанії проводять конкурси по боротьбі з ними.

COM_SPPAGEBUILDER_NO_ITEMS_FOUND