Комп'ютер навчили впізнавати людей по вдихах між словами

Звуки вдихів між виголошенням слів під час промови можна використовувати для ідентифікації особи, яка говорить. На відміну від інших компонентів мови, вдихи складніше контролювати і, отже, важче підробити, повідомляється в роботі американських дослідників, опублікованій на arXiv.org.


В останні кілька років технології розпізнавання мови сильно просунулися і застосовуються в багатьох сучасних смартфонах і «розумних пристроях», іноді навіть без використання інтернету. За рахунок застосування нейросетевих алгоритмів розпізнавання мови вдосконалювалося ще сильніше, і найсучасніші розробки вже не поступаються живим людям. Це дозволило використовувати голос як засіб ідентифікації, але практично всі такі системи аналізують звуки, що видаються при вимові самих слів.


Дослідники під керівництвом Рити Сінгх (Rita Singh) з Університету Карнегі - Меллон запропонували використовувати для ідентифікації звуки вдихів між словами. Вони запропонували застосувати для розпізнавання звуків вдихів методику, засновану на супервекторах ознак, яка використовується в багатьох системах розпізнавання голосу. У ній окремі часові фрагменти мови перетворюються на вектори. Потім серед цих векторів шукають області «згущень», які перетворюються на супервектори, які аналізуються за допомогою класифікаторів, наприклад, за допомогою методу опорних векторів. Як альтернативне рішення автори також розробили систему розпізнавання вдихів, засновану на нейромережі.

Вчені застосували для розпізнавання згорточну нейромережу з довгою короткостроковою пам'яттю (про цей тип нейромереж можна прочитати в нашому матеріалі). Для експериментальної перевірки вони взяли набір даних, що складається з майже ста годин записів новинних передач англійською мовою, записаних у 1997-1998 роках. На цьому наборі даних вони натренували вже існуючу систему розпізнавання мови, яку дослідники використовували для сегментації мови на фонеми. За допомогою цієї системи вони вичленували з цього набору даних тільки звуки між словами.

Отримавши набір даних, що складається з вдихів між словами, дослідники перевірили на ньому розпізнавання голосу за допомогою двох методів. Ефективність розпізнавання особи, що говорить у методу, заснованого на супервекторах виявилася на рівні 72-74 відсотків залежно від типу використаного класифікатора. Нейромережа в аналогічному експерименті змогла досягти точності ідентифікації в 91,3 відсотка.

Інші вчені пропонують розпізнавати особу, яка розмовляє унікальними рухами доль під час промови. Гонконгські дослідники зробили це за допомогою візуального розпізнавання, а інженери з США нещодавно створили додатки для смартфона, який відтворює з динаміка ультразвукові сигнали і аналізує рух доль за відображеним сигналом.

COM_SPPAGEBUILDER_NO_ITEMS_FOUND