Google розробила поліпшений аналог нейромережі DALL-E 2

Навчання 20 серпня 2023

Дослідники з Google розробили генеративну нейромережу Imagen, що створює реалістичне зображення за текстовим запитом подібно DALL-E 2 від OpenAI. Дослідження результатів на добровольцях показало, що люди вважають згенеровані їй зображення більш якісними, ніж зображення з інших нейромереж, в тому числі і DALL-E 2. Стаття про алгоритм опублікована на arXiv.org, також автори запустили сайт з прикладами роботи нейромережі і коротким описом.

Від редактора

У 2021 році OpenAI представила нейромережу DALL-E, яка генерує зображення за текстовим описом, сформульованим простою мовою. Ця модель показала великий приріст в якості генерації зображень (text2image), але в основному їй вдавалися ілюстрації. У DALL-E 2, представленій на початку квітня, дослідники модифікували архітектуру моделі і домоглися вже досить якісної генерації в тому числі і фотореалістичних зображень. Максимально коротко роботу моделі можна описати так: отримавши текстовий опис, вона, використовуючи текстовий кодувальник від CLIP (модель від OpenAI, що генерує описи зображень), отримує текстовий ембеддинг (стиснуте векторне представлення даних), потім за допомогою дифузійної моделі «конвертує» його у візуальний ембеддінг, потім за допомогою іншої дифузійної моделі створює зображення розміру 64 на 64 пікселі, а наприкінці ще до двох, а до двох діффузійних моделей.

Від редактора

Диффузійні моделі працюють наступним чином: Спочатку береться якісне зображення (наприклад, фотографія), на яке поетапно додається все більше галасу до стадії, коли на ньому буде вже тільки випадковий шум. Потім з таких наборів вихідних і «зіпсованих» зображень створюється датасет, на якому нейромережа вчиться виконувати зворотну операцію: створює якісне зображення з шуму. У 2021 році дослідники з OpenAI показали, що такий метод генерації працює краще і ефективніше традиційних генеративно-змагальних нейромереж.

Через півтора місяці дослідники з Google представили свою генеративну нейросетеву модель Imagen, яка архітектурно схожа на DALL-E 2, але все ж має деякі відмінності і домагається кращих результатів. У якості кодувальника вихідного тексту використовується кодувальник T5-XXL. У цьому полягає одна з відмінностей від DALL-E 2: якщо в ній використовується кодувальник від моделі CLIP, яку навчали на тексті та зображеннях, то T5 навчався тільки на тексті. Отримуваний текстовий ембеддинг подається відразу в дифузійну модель, що створює зображення в роздільній здатності 64 на 64 пікселя (в DALL-E 2 перед цим етапом використовується «конвертер»), а воно в свою чергу два рази збільшується дифузійними моделями до дозволу 1024 на 1024. В Imagen кожна дифузійна модель працює з урахуванням текстового ембеддингу. Автори DALL-E 2 писали у своїй статті, що вони пробували таку ж схему, але не виявили, що вона підвищує якість генерації, тому текстовий ембеддинг не враховувався при підвищеннях дозволу.

Imagen навчалася на власних датасетах Google, в яких було сумарно 460 мільйонів пар «зображення-опис», а також на публічно доступному датасеті Laion з 400 мільйонами пар. У результаті розробникам вдалося створити модель з високою якістю генерації зображень різних типів. Дослідники оцінили роботу моделі трьома способами. Вони порівняли результати генерації з фотографіями з популярного датасета COCO і з'ясували, що Imagen створює рекордно схожі зображення (FID = 7,27). Оцінка добровольцями показала, що люди вважають згенеровані новою моделлю зображення реалістичнішими за фотографії з COCO в 39,5 0,75 відсотка випадків. Коли з порівняння прибирали всі фотографії з людьми, ця величина зростала до 43,9 ст.1 1,01 відсотка.

Нарешті, дослідники безпосередньо порівняли роботу Imagen з чотирма іншими моделями для генерації зображень за текстовим описом. Вони генерували зображення, використовуючи однакові описи, показували пари таких зображень добровольцям і просили їх вибрати один приклад з пари, оцінюючи якість і відповідність зображення опису. Виявилося, що люди віддають перевагу Imagen іншим моделям за обома параметрами.

Судячи з показаних Google прикладів, Imagen, на відміну від DALL-E 2, вміє генерувати реалістичні написи, а також рідше плутає кольори, якщо вони є в текстовому запиті. Водночас варто розуміти, що, на відміну від OpenAI, яка хоча б надала деяким дослідникам і журналістам доступ до демо-версії генератора, Google не виклала у відкритий доступ ні демо, ні код, тому оцінити її роботу досить складно. Деякі дослідники, які мають доступ до демо-версії DALL-E 2, виклали в твіттер порівняння наданих Google прикладів з результатами генерації DALL-E 2 за тими ж запитами.

Автори пояснюють закритість проекту тим, що в датасетах для навчання зустрічаються неприйнятні приклади, в тому числі «порнографічні зображення, расистські образи і шкідливі соціальні стереотипи». Також вони відзначають, що генеративні моделі можуть використовуватися в зловмисних цілях, у тому числі для поширення дезінформації. Крім того, що дослідники не виклали модель у відкритий доступ, можна побачити, що у всіх прикладах генерації є напис Imagen в нижньому правому кутку. Таким же чином позначає всі створені картинки OpenAI, правда, використовує для цього кольорові квадрати замість напису з назвою моделі.

Як правило, незабаром після виходу подібних статей з'являються відкриті реалізації описаних в них алгоритмів. Зокрема одним з перших це робить розробник Філ Ван (Phil Wang), відомий на GitHub під ніком licudrains. Він вже виклав свою реалізацію DALL-E 2 і завів репозитарій, в який в найближчому майбутньому планує викласти вільну версію Imagen.