Нейромережа навчили ставити геотег на знімки їжі і котиків

Колектив вчених з Google і Рейнсько-Вестфальського технічного університету Ахена створив програму PlaNet, яка з фотознімку (будь-якого, навіть зображення їжі або домашньої тварини) визначає, в якій точці Землі він був зроблений. Новий алгоритм заснований на навчанні штучної нейронної мережі і відрізняється від попередників тим, що спирається не тільки на будь-які добре відомі пам'ятки, а використовує весь доступний комплекс деталей, наприклад, пейзаж, кольори, особливості архітектури, присутність характерних тварин і рослин. Препринт роботи викладено на .Автори зібрали базу з 126 мільйонів фотографій з доступними тегами геолокації, а потім розбили поверхню землі на квадрати так, щоб на кожен з них припадало не більше 10000 знімків. Таким чином, сітка розбиття була рідше в малонаселених регіонах і гущавині, наприклад, у великих містах. Квадрати, на які припадало менше 50 фотографій (океани, крайня північ), в роботу взагалі не включали. Використовуючи три чверті відібраних фотографій, дослідники навчали згорточну нейронну мережу, яка на виході видавала розподіл ймовірностей по квадратах: чим більше значення, тим більша ймовірність, що знімок був зроблений в цьому регіоні. Параметри підбиралися так, щоб для фото з відомим геотегом ймовірність в «потрібному» квадраті прагнула до 100 відсотків, а у всіх інших - до нуля.


Решту чверть знімків використовували для перевірки працездатності мережі. Виявилося, що 3,6 відсотка фотографій програма може впізнати з точністю до вулиці, 10,1 відсотка - в межах міста, 28,4 відсотка - з точністю до країни і 48 відсотків - до континенту. При цьому, якщо серед відповідей дивитися не на одного, а на п'ять кращих претендентів, ця точність підвищувалася майже в два рази. Автори також влаштували змагання між PlaNet і людьми. Для цього використовувалися дані гри Geoguessr, в якій користувачам пропонують визначити місце розташування на карті, користуючись панорамами вулиць. При цьому не дозволялося «оглядатися» навколо або переходити до сусідніх панорам. За підсумками 50 раундів PlaNet виграв 28 разів, при цьому його середня помилка склала 1131,7 кілометрів. Люди помилялися в середньому на 2320,75 кілометрів. Серед переваг PlaNet вчені відзначають незалежність від великих пам'яток, а також те, що знімок не обов'язково повинен бути зроблений в межах міста. Крім того, в аналогічних програмах найчастіше вибирається єдиний варіант місця розташування, тоді як PlaNet видає розподіл ймовірностей по декількох регіонах, що дозволяє оцінити характерну похибку. З попередників PlaNet можна назвати Im2GPS. У рамках цього проекту місце розташування визначається за допомогою порівняння заданого знімка з базою Flickr. Крім того, раніше для вирішення цього завдання використовувалися комбінації знімків із землі та з повітря, а також аналіз локальних об'єктів, присутніх на фотографії (PDF). Особливо незвичним було рішення проекту Skyline2GPS: автори порівнювали лінію горизонту на фотографії з тривимірною моделлю міста.


COM_SPPAGEBUILDER_NO_ITEMS_FOUND