Тренування на одних фразах допомогло нейромережі розпізнати по активності мозку інші

Нейромережа навчили розпізнавати промову щодо активності кори мозку людини. Алгоритм навчали і тестували на обмеженому наборі з 50 пропозицій, точність розпізнавання в середньому склала 97 відсотків. Навчання на додаткових даних знизило кількість помилок, що говорить про те, що алгоритм не просто запам'ятовує пропозиції, а знаходить загальні закономірності. Стаття опублікована в журналі.


Сучасні нейроінтерфейси вміють добре розшифровувати активність мозку, яка пов'язана з рухами, - таким чином людина може керувати, наприклад, штучними кінцівками. А ось безпосередньо переводити електричні сигнали мозку в мову досі було неможливо, тому повсюдно використовується схема, в якій людина керує курсором і друкує текст на екрані комп'ютера. Але навіть якщо б точність контролю курсора була ідеальною, говорити таким способом все одно виходило б дуже повільно - максимальна швидкість була б як при друку одним пальцем.


Були і спроби розшифрувати промову з активності мозку безпосередньо, проте поки вдавалося зрозуміти лише окремі фонеми або звуки, а розпізнати мову, яка складалася з обмеженого набору в 100 слів, вченим вдалося з точністю менше 40 відсотків.

Вчені з Каліфорнійського університету в Сан-Франциско під керівництвом Джозефа Мейкіна (Joseph Makin) скористалися методами машинного навчання для того, щоб розшифрувати промову з активності мозку. У чотирьох добровольців записували електрокортикограму, аналог електроенцефалограми, в якому електроди накладають безпосередньо на кору мозку (електроди пацієнтам встановили за медичними показаннями). Решітка електродів покривала область кори навколо бічної борозни - ця зона включає в себе мовні центри.

Учасники читали вголос пропозиції з двох баз даних: в одній було 30 речень і 125 унікальних слів, у другій - 50 речень і 250 унікальних слів. Кожен набір фраз зачитували як мінімум три рази (два для навчання і один тестовий).

З електрокортикограми виділяли високочастотну складову (70-150 Герц) і використовували цю послідовність як вхідні дані для нейросетевого автокодувальника. Такі алгоритми переводять вхідний сигнал у внутрішній код, а потім розшифровують його. Нейромережа ніби перекладає інформацію спочатку «своєю мовою», а потім вже в потрібний нам формат.

На першому етапі алгоритм виділяв невеликі послідовності електричної активності мозку, які були характерні для певних компонент мови і повторювалися в різних зразках. Нейромережа відфільтровувала решту інформації і передавала на наступний елемент тільки решту послідовності.

Як кодувальник автори використовували рекуррентну нейромережу, яка дозволяє обробляти ланцюжки подій незалежно від їх довжини і використовує для цього свою внутрішню пам'ять. Кодувальник на цьому етапі також передбачав і зашифровував звукові характеристики слів, це було додатковою підказкою при навчанні алгоритму. Друга рекуррентна мережа потім перекладала внутрішні послідовності в текст, одиницею розшифровки було слово (а не звук, як у попередніх моделях). Крім того, як вхідні дані декодер використовував власне передбачення наступного слова в реченні.


Дослідники припустили, що нейромережа може просто запам'ятовувати набір пропозицій і вибирати найбільш відповідне. Щоб перевірити цю гіпотезу, алгоритми, які використовували обмежений набір даних і розпізнавали промову з великою кількістю помилок, додатково навчили на іншому наборі пропозицій, а також використовували активність мозку іншої людини. Крім того, для порівняння своєї парадигми з існуючими раніше автори роботи спробували розшифрувати ті ж зразки мови за допомогою прихованої марківської моделі, яка може використовувати в якості одиниці тільки звуки, але не слова.

Щоб дізнатися, яка анатомічна область робить більший внесок у роботу алгоритму, вчені програмно змінювали дані окремих електродів і перевіряли, наскільки збільшиться кількість помилок у розпізнаному тексті.

Рівень точності розшифровки мови склав близько 97 відсотків. Якщо для декодування не використовували звукові характеристики мови, кількість помилок збільшувалася в кілька разів, але рівень точності в цілому залишався прийнятним (нижче 25 відсотків). Отже, алгоритм можна тренувати, навіть якщо людина не може вимовляти речення вголос. Навчання на іншому наборі пропозицій або на даних від іншої людини значно знизило кількість помилок (p < 0,001). Це говорить про те, що нейромережа не просто запам'ятовує обмежений набір пропозицій, а й виділяє загальні закономірності мови і мови. Рівень помилок у моделі, яка розшифровувала не слова, а звуки був вище 33 відсотків - значить, підхід цієї роботи більш ефективний.

Найбільший внесок у роботу алгоритму вносила вентральна сенсомоторна кора і верхня скронева борозда - області, які пов'язані зі створенням і сприйняттям мови.

У майбутньому можна навчати модель на більшій кількості зразків мови, щоб вона могла розпізнавати мову, не обмежену набором з 50 пропозицій, у тому числі у пацієнтів, які не можуть говорити і рухатися.

Вперше подібну модель вчені представили в минулому році: у роботі були використані пропозиції з великим набором слів, але рівень помилок розпізнавання був між 7 і 11 відсотками. Цікаво, що цей алгоритм працював і коли учасники вимовляли фразу беззвучно, хоча точність розпізнавання в такому випадку знижувалася до 30-60 відсотків.

COM_SPPAGEBUILDER_NO_ITEMS_FOUND