Дослідники знайшли тисячу слів для активації розумних колонок

Німецькі дослідники запропонували метод і створили апаратне забезпечення, які дозволили їм визначити більше тисячі слів, у відповідь на які активуються розумні колонки різних виробників. Автори опублікували об'ємний опис роботи з прикладами на своєму сайті, а найближчим часом також планують опублікувати статтю і зібраний датасет зі слів і фраз.


У розумних колонках майже всіх виробників використовується схожа модель безпеки даних. Вони постійно слухають промову навколо і намагаються розпізнати в ній фразу активації: «Аліса», «Окей, Google», «Привіт, Siri» або іншу. Ця частина роботи відбувається повністю локально, тому при ідеальній роботі розумні колонки передають на сервери компанії для розпізнавання тільки команди господаря. Однак алгоритми розпізнавання працюють не ідеально і нерідко беруть за фразу активації інше слово, яке користувач, наприклад, сказав у конфіденційній розмові по телефону. У результаті голосовий помічник відправляє на сервер відрізок мови починаючи з цього слова, який може бути досить довгим. Разом з тим, що частину записів аналізують компанії-розробники або навіть сторонні підрядники, ці помилки викликають досить серйозну стурбованість серед фахівців, тому що через це конфіденційні розмови користувачів можуть почути сторонні люди.


Дослідники під керівництвом Торстена Хольца (Thorsten Holz) з Рурського університету в Бохумі розробили метод, що дозволяє в майже автоматичному режимі перевіряти голосові помічники на подібні помилки і складати список слів, які їх алгоритми інтерпретують невірно. Вони зібрали набір аудіозаписів з промовою з фільмів, серіалів і випусків новин, загальною складністю понад 180 годин тільки німецькою мовою, хоча крім нього вони відчували колонки, що розмовляють англійською та китайською. Всього автори випробували 11 пристроїв: сім різних моделей розумних колонок по одному екземпляру і чотири екземпляри Amazon Echo Dot, тому що Alexa підтримує чотири різних фрази активації (Alexa, Echo, Amazon і Computer).

Щоб дослідникам не довелося контролювати вручну роботу колонок протягом сотень годин аудіозаписів, вони розробили метод автоматичного аналізу. Для цього вони поставили на стіл в лабораторії всі 11 колонок, а також колонку, підключену до комп'ютера і програваючу фільми і новини з нього. У розумних колонок є світлодіодне підсвічування або екран, що показує, що голосовий помічник почув фразу активації і записує команду. До цього елемента кожної колонки дослідники підключили датчик освітлення, щоб активацію на певний фрагмент аудіозапису можна було реєструвати автоматично. Також система дублює запис за допомогою відеокамери з мікрофоном і аналізує мережевий трафік з колонок завдяки тому, що всі вони підключені до однієї мережі Wi-Fi. Щоб експеримент проходив без довгих помилок, між різними аудіозаписами комп'ютер вимовляв команду з нормальними активаційними фразами і відзначав реакцію колонок. Все це дозволило створити систему, яка працювала цілодобово без фізичної присутності авторів.

Автори поки не опублікували повний датасет зі знайденими фразами, які алгоритми сприймають як свою фразу активації, але вони зазначили, що всього знайшли більше тисячі таких слів або фраз трьома мовами, в тому числі 272 німецькою. Деякі з них до кінця дослідження вже не працювали, тому що виробники постійно оновлюють алгоритми. Незважаючи на те, що повний набір слів автори не опублікували, частину з них вони розкрили. Серед них є як досить схожі на оригінальні фрази, як у випадку з «OK, cool» замість «OK, Google», так і несподівані варіанти: «tobacco» замість «Echo» або «unacceptable» замість «Alexa». Також дослідники опублікували на YouTube деякі приклади, коли голосові помічники спрацьовували на фрази героїв «Гри престолів» (1, 2) і «Американської сімейки» (1, 2).

Інженери-ентузіасти і невеликі компанії створили проекти пристроїв, що захищають від випадкових спрацьовувань. Одне з них посилає в мікрофон колонки білий шум і вимикає його при розпізнаванні команди, а друге, залежно від версії, або працює так само, або натискає на кнопку відключення мікрофона колонки.

COM_SPPAGEBUILDER_NO_ITEMS_FOUND