Apple вперше поділилася своїми успіхами в машинному навчанні

Дослідники з Apple розробили метод поліпшення синтетичних зображень, призначених для тренування нейромережі. Це перша офіційно опублікована в загальному доступі робота, що стосується розробок компанії, препринт доступний на arXiv.org.


Apple аж до недавнього часу дотримувалася закритої політики і інформація про різні дослідницькі роботи компанії, в тому числі в сфері машинного навчання, не публікувалася у відкритих джерелах. Однак у грудні Руслан Салахутдінов, який нещодавно очолив в Apple дослідницький підрозділ, що відповідає за розробки в галузі штучного інтелекту, заявив, що компанія змінює свою політику і тепер роботи будуть публікуватися, а співробітники зможуть відкрито взаємодіяти з науковим співтовариством.


У першій опублікованій Apple роботі описується метод поліпшення синтетичних розмічених зображень, які використовуються для швидкого навчання нейромереж. При навчанні вкрай важливий обсяг і якість даних, на прикладі яких навчається програма, проте в деяких випадках відповідної інформації може просто не опинитися в потрібному обсязі - наприклад, для тренування нейромережі, яка допоможе керувати різними пристроями поглядом, необхідна велика кількість розмічених фотографій очей. Розмітка великих баз вручну - трудомісткий процес, тому дослідники, які вирішують подібні завдання, нерідко використовують замість реальних фотографій рендери зображення очей.

У нейромереж, натренованих на синтетичних зображеннях, проявляється нова слабкість - вони гірше розпізнають реальні фотографії, оскільки вони не використовувалися в навчанні або використовувалися в значно меншій кількості, ніж синтетичні. Одне з можливих рішень - використовувати більші обчислювальні потужності при створенні зображень для підвищення їх реалістичності, однак такий метод веде до відчутного подорожчання роботи.

Щоб вирішити існуючі проблеми з генерованими зображеннями розробники з Apple вирішили використовувати проміжну нейронну мережу, яка допомагає створювати набір даних для навчання. Програма використовує розмічене синтетичне зображення і нерозмічену реальну фотографію для створення на виході нового поліпшеного зображення, яке зберігає в собі напрямок погляду і розмітку від синтетичного. Фактично, стиль фотографії переноситься на згенероване зображення ока - детальніше про те, як нейромережі можуть переносити стиль одного зображення на інше, можна прочитати в матеріалі N + 1 «На виставці Ван Гога».

Для перевірки ефективності і правдоподібності поліпшених таким чином зображень автори показували десяти випробовуваним 50 реальних фотографій і 50 поліпшених згенерованих зображень. Одночасно кожен доброволець бачив 20 картинок з обох категорій і повинен був відзначити реальні і згенеровані зображення. У результаті 1000 зображень випробовувані правильно відзначили 517 (p = 0,148), що практично не відрізняється від випадкового вгадування. У той же час, при демонстрації синтетичних зображень без поліпшення і реальних фотографій добровольці віднесли до вірної категорії 162 картинки з 200 (p. 10-8), що істотно відрізняється від випадкового вгадування.

Крім перевірки за допомогою добровольців автори також перевірили ефективність нових зображень за допомогою нейромережі, яку натренували на поліпшених картинках. Алгоритм, який навчався на поліпшених зображеннях, показав результат розпізнавання напрямку погляду на 22,3 відсотка вище, ніж така ж нейромережа, натренована на звичайних синтетичних зображеннях. Крім того, «покращена» нейромережа точніше впоралася з визначенням напрямку погляду, ніж інші алгоритми, натреновані на реальних фотографіях з датасета MPIIGaze.

Правильне визначення напрямку погляду може бути використано для управління пристроями в різних сферах - наприклад, для переміщення в VR-іграх, передбачення маневрів водіїв до їх здійснення або управління військовими безпілотниками.


COM_SPPAGEBUILDER_NO_ITEMS_FOUND