Дослідники з Meta розробили мультимодальний метод навчання нейромереж

Дослідники з Meta AI (раніше Facebook AI) розробили єдиний метод навчання нейромереж, що підходить для роботи із зображеннями, звуком і текстом. У ньому використовується дві ідентичні нейромережі - вчитель і учень. Вчитель отримує повні вхідні дані, а учень отримує часткові і вчиться передбачати внутрішнє уявлення повної версії цих даних у моделі-вчителі. Моделі, навчені таким методом, виявилися краще або порівняні з моделями, навчені методами, специфічними для одного типу даних. Стаття і короткий опис методу опубліковані на сайті Meta AI.


В останні роки дослідники в галузі машинного навчання все частіше використовують навчання без вчителя або самонавчання. Особливо корисно воно коли необхідно використовувати величезні обсяги даних або навчати модель на завданні, для якої немає достатніх датасетів, наприклад, для навчання мовної моделі рідкісною мовою. Один з найяскравіших прикладів такого типу навчання - GPT-3, яка навчалася на 570 гігабайтах текстів. Однак розробки в галузі самонавчання, як правило, зосереджені на одній модальності (одному типі даних), і методи навчання часто не можна безпосередньо застосувати до інших модальностей.


Група дослідників з Meta AI під керівництвом Майкла Аулі (Michael Auli) розробила метод навчання, що підходить для різних типів даних. Розробники використовували в якості навчаної моделі для всіх трьох модальностей стандартний трансформер і додавали до нього на вхід специфічний енкодер для того чи іншого типу даних. Під час навчання використовується дві нейромережеві моделі (вчитель і учень), але по суті вони ідентичні один одному і відрізняються тим, що ваги нейромережі-вчителя - це трохи відстаючі і згладжені ваги нейромережі-учня (вони задаюся як експоненційна ковзна середня від терезів учня).

Навчання відбувається наступним чином. Спочатку дані (зображення, текст або звук) в повному вигляді надходять на енкодер, специфічний для цього типу даних, а потім з енкодера в нейромережу-вчитель. Вона створює внутрішнє уявлення цих даних. Потім на модель-учня надходять ті ж дані, але частково приховані. Наприклад, на зображеннях автори вирізали 60 відсотків. Завдання учня полягає в тому, щоб за цими частковими даними передбачити внутрішнє уявлення, яке створила модель-вчитель з повних даних. Оскільки нейромережа вчиться передбачати саме внутрішнє уявлення, цей метод навчання не прив'язаний до типу даних (при цьому необхідний специфічний для типу даних енкодер).

Важливо розуміти, що мова йде не про навчання, що працює з різними модальностями, а про моделі для тієї чи іншої модальності. Таким чином, після навчання виходить модель, що працює із зображеннями або з текстом або зі звуком, а не з усіма трьома типами даних одночасно. Торік дослідники з DeepMind представили нейромережу Perceiver IO, яка може працювати відразу з кількома типами даних і не використовує для них специфічні енкодери, але при цьому вчиться за принципом навчання з учителем. Автори нової роботи відзначають важливість цієї моделі і вважають перспективним об'єднання підходів з обох робіт для створення самонавчальної мультимодальної архітектури.

Розробники протестували навчену новим методом модель-трансформер на трьох завданнях. Для перевірки роботи із зображеннями вони навчали два варіанти мережі (^ T-B і ^ T-L) на датасеті ImageNet-1K, і перевіряли їх на завданні класифікації зображень з валідіруючої вибірки (top-1). Модель для роботи з промовою навчали на 960 годинах мови з датасета Librispeech і перевіряли за прислівною ймовірністю помилки (WER). А модель для роботи з текстом навчали на датасеті Books Corpus і даних англомовної Вікіпедії, а перевіряли на стандартному для NLP бенчмарці GLUE.

Тестування показало, що новий метод дозволяє отримати вищі результати, ніж попередні аналоги в завданні класифікації зображень і розпізнавання мови, а також проявляє себе трохи гірше, але можна порівняти з аналогами в завданнях по роботі з текстом.

Поки дослідники з Meta розвивають методи і алгоритми машинного навчання, що належить компанії соцмережа Facebook відмовляється від їх застосування. Наприкінці 2021 року Meta оголосила, що перестане розпізнавати обличчя людей на фотографіях у Facebook і видалить зібрані біометричні профілі користувачів.


COM_SPPAGEBUILDER_NO_ITEMS_FOUND