Нейромережа від DeepMind навчилася вирішувати 604 завдання різних типів

Дослідники з DeepMind розробили мультимодальну нейромережу, здатну виконувати завдання різного типу. Наприклад, вона вміє керувати роботом, грати в ігри для Atari, писати текст і описувати фотографії. Стаття про алгоритм опублікована на arXiv.org, також автори розповіли про нього на сайті DeepMind.


У 2017 році дослідники з Google Brain представили нейросетеву архітектуру Transformer, відмінною особливістю якого стало широке використання механізму уваги. Це дозволяє нейромережі набагато краще розуміти контекст слів і пропозицій, що в свою чергу дозволило домогтися великого прогресу в цілому в області обробки природної мови. Один з найвідоміших прикладів цього прогресу: модель GPT-3 від OpenAI. Виявилося, що якщо навчити модель на величезному масиві текстів, вона вивчить гарне уявлення мови і того, як повинні виглядати тексти, після чого її можна швидко і на дуже невеликому обсязі даних доотримати до конкретного завдання. Причому це завдання не обов'язково має бути текстовим: з'ясувалося, що GPT-3 вміє виконувати базові арифметичні операції.


Паралельно з розвитком універсальних мовних моделей дослідники розробляють мультимодальні моделі, що працюють одночасно з різними даними. Дослідники з DeepMind під керівництвом Нандо де Фрейта (Nando de Freita) розробили нову мультимодальну нейромережу Gato, яка дозволяє використовувати архітектуру Transformer для вирішення різних завдань.

Оскільки Transformer розробляли для мовних завдань, ця архітектура працює з текстовими токенами. Відповідно, для роботи з різними даними Gato перетворює їх на токени. Розробники використовували чотири схеми токенізації. Текст токенізується стандартним способом, при якому в словах виділяються підслова і кодуються числом від 0 до 32 тисяч. Зображення розбиваються на квадрати (16 на 16 квадратів), а пікселі в них кодуються від − 1 до 1, а потім ці квадрати подаються в модель прострочено. Дискретні значення перетворюються на числа від 0 до 1024, а безперервні дискретизуються і перетворюються на число або набір чисел від 32000 до 33024. При необхідності токени також можуть розбиватися розділовими токенами.

Після токенізації вхідних даних кожен токен перетворюється на ембеддінг (по суті стиснуте векторне представлення тих же даних) двома способами: для зображень квадрати пропускаються через згорточну нейромережу типу ResNet, а для інших даних вони підбираються через вивчену таблицю пошуку (оскільки будь-який токен являє собою ціле число в обмеженому діапазоні).

Дослідники використовували 24 датасети з даними різних типів і з їх допомогою навчили модель виконувати 604 завдання. При цьому модель не досягла рекордних результатів на цих завданнях. У деяких, наприклад, в 23 іграх для Atari, вона справляється краще людей, але це не новий результат для алгоритмів машинного навчання - в 2020 році DeepMind розробила алгоритм, який обіграє людей відразу в 57 іграх. В інших же вона явно не дотягує до рівня людини, наприклад, в анотації зображень:

Фактично DeepMind продемонструвала підхід, зворотний прийнятому: замість створення вузькоспеціалізованої моделі, що вирішує конкретну задачу або набір суміжних завдань краще за інших, розробники створили універсальну модель, яка вирішує самі завдання, але не дуже якісно.

Крім мультимодальних нейромереж дослідники також працюють над мультимодальними методами їх навчання, тобто єдиному методі, що підходить для навчання спеціалізованих моделей для роботи з текстом, зображеннями або звуком. Нещодавно ми розповідали про такий метод, розроблений розробниками з Meta.


COM_SPPAGEBUILDER_NO_ITEMS_FOUND