Нейромережа навчили якісно виділяти об'єкти на фотографії

Американські дослідники створили алгоритм, який автоматично розбиває об'єкти на зображенні за типами, а потім замінює об'єкти, наприклад, фон, на інші. При цьому алгоритм враховує, що деякі пікселі зображення можуть одночасно належати двом різним об'єктам, і створює плавні переходи між об'єктами на новому зображенні. Стаття була представлена на конференції SIGGRAPH 2018.


Як правило, виділення на зображенні певних об'єктів відбувається вручну. Для цього можна застосовувати повністю ручне виділення або інструменти типу «магічне ласо», які в напівавтоматичному режимі визначають межі між різними об'єктами, ґрунтуючись на відмінностях у кольорах межуючих областей. Крім того, існують алгоритми машинного навчання, які автоматично проводять семантичну сегментацію - поділяють зображення на області, що відповідають об'єктам різних типів і самостійно визначають ці типи. Багато в чому саме на таких алгоритмах заснована робота систем управління безпілотними автомобілями.


Група дослідників з Массачусетського технологічного інституту та Швейцарської вищої технічної школи Цюріха під керівництвом Войцеха Матусіка (Wojciech Matusik) створили почесну реалізацію алгоритму семантичної сегментації, здатну якісно обробляти краї об'єктів при накладенні фону або інших об'єктів. Розробники не ставили завданням класифікацію областей за типами, тому алгоритм вийшов класонезалежним і виділяючим об'єкти, ґрунтуючись на межах між ними. Дослідники врахували, що в близьких до межі об'єктів областях зображення пікселі можуть належати одночасно двом об'єктам. Саме через це класичні методи розмежування об'єктів погано справляються з волоссям, напівпрозорими тканинами та іншими подібними об'єктами.

Алгоритм на основі згорточної нейромережі розбиває зображення на шари з об'єктами, причому з урахуванням їх прозорості в граничних регіонах. Під час аналізу зображення алгоритм враховує як семантичну близькість пікселів на зображенні, так і колір та текстуру. У результаті алгоритм навчився працювати з фотографіями, на яких зображені об'єкти різних типів, і якісно замінювати частину шарів на інші. Наприклад, він може автоматично розпізнати людину на тлі моря і замінити тільки море, залишивши людину і землю під нею. Дослідники відзначають, що потенційно метод можна застосовувати і для відеороликів, але це завдання не входило в цілі роботи.

Нещодавно відеосервіс YouTube додав у свій додаток фільтри, які можуть в реальному часі замінювати фон на відеозаписах. Алгоритм також працює завдяки семантичній сегмантації, яка в даному випадку зведена до виділення одного об'єкта і фону. При цьому на демонстраційному відео можна бачити, що алгоритм досить добре визначає фон, але має проблеми з граничними регіонами, особливо волоссям.

COM_SPPAGEBUILDER_NO_ITEMS_FOUND