Google навчила алгоритм прямого перекладу усного мовлення

Компанія Google розробила алгоритм, здатний безпосередньо перекладати мову на іншу мову, не використовуючи текстове уявлення сказаних слів. Крім того, алгоритм може зберігати характеристики голосу людини на перекладеному записі. Опис розробки опубліковано в блозі Google AI, а також у статті на arXiv.org.


Сучасні смартфони і розумні колонки вміють перекладати іншими мовами не тільки текст, а й мова. Наприклад, нещодавно Google додала таку функцію в голосовий помічник Assistant. Подібні системи мають технічні відмінності, але в цілому влаштовані схоже і переведення в них проходить у три етапи. Спочатку алгоритм розпізнає слова на аудіозапису і створює текстове представлення мови. Потім буде перекладено текст вихідною мовою до тексту необхідною мовою. На останньому етапі використовується система синтезу мовлення, що перетворює перекладений текст на аудіозапис. Такий підхід працює досить добре, але він має і недоліки. Наприклад, через відсутність прямого зв'язку між вихідним і синтезованим записом мови алгоритм може некоректно передавати інтонації та паузи.


Розробники з Google під керівництвом Юнхуея У (Yonghui Wu) створили алгоритм, що перекладає мову з однієї мови на іншу без використання проміжного перекладу мови в текстове подання. Створений розробниками алгоритм являє собою набір з декількох окремих алгоритмів, частина з яких використовує архітектуру нейромережі з довгою короткостроковою пам'яттю (LSTM). Загалом алгоритм можна представити у вигляді трьох модулів, центральний з яких приймає спектрограму вихідного аудіозапису з голосом і синтезує спектрограму для запису мови іншою мовою. Після отримання нової спектрограми вона віддається алгоритму для синтезу аудіофайлів. Третій модуль - це кодувальник, дані з якого використовуються, якщо необхідно зберегти голос з оригінальної мови:

Для навчання дослідники використовували два великих датасета, що містять записи розмов англійською та іспанською, а також їх текстову виставу. Під час навчання алгоритм виконував ще одне завдання, яке розробники називають критично важливим для того, щоб навчити його перекладати не тільки окремі прості слова, а й цілі речення. Алгоритм передбачав текстові послідовності фонем обома мовами. Під час роботи ця частина алгоритму не використовується і лише допомагає навчити нейромережу коректному створенню спектрограм.

Автори роботи продемонстрували приклад роботи алгоритму при перекладі з іспанської на англійську мову. Інші приклади доступні на сайті дослідницької групи.

Розробники перевірили якість роботи алгоритму за допомогою BLEU-методу, при якому машинний переклад порівнюється з перекладом, виконаним людиною. Виявилося, що класичний підхід з проміжним перетворенням мови в текст дає кращий результат. Разом з цим вони зазначають, що це перший приклад алгоритму для прямого перекладу усного мовлення, навченого на повноцінному корпусі мови. Раніше інші дослідники показували принципову можливість такого підходу, але використовували датасет зі 100 слів.

Торік розробники з Facebook навчили алгоритм машинного перекладу при навчанні обходитися без масивних паралельних корпусів мови. Замість цього алгоритм вчиться розуміти векторне представлення слів обома мовами, а також вчить граматично вірним формам і поєднанням на невеликих прикладах.

COM_SPPAGEBUILDER_NO_ITEMS_FOUND