Нейромережа відучилася від упередженості саморегуляцією вибірки

Американські розробники представили алгоритм, який позбавляє розпізнавання осіб від упередженості. Для цього вони додали до згорточної нейромережі, що розпізнає зображення людей, нейромережу-автокодувальник, яка стежить за тим, як добре розпізнаються ті чи інші об'єкти, і змінює на основі цього навчальну вибірку. Вченим вдалося знизити упередженість використаних у вибірці даних з 28 до 9 відсотків, при цьому точність розпізнавання зросла. Результати роботи дослідники представлять на конференції AIES 2019, яка зараз проходить в Гонолулу; також доступний препринт статті.


Одна з проблем, яка досі існує в галузі машинного навчання, - це часто виникаюча упередженість алгоритмів: через особливості зібраних вибірок, в яких часто бракує тих чи інших даних, результати їх роботи можуть бути, наприклад, виражено сексистськими або расистськими. Боротися з такою упередженістю пропонують по-різному: збираючи більш різноманітні дані (що може бути дуже витратно і також упереджено, враховуючи, що розмітка таких даних часто проводиться людьми) або ж оптимізуючи роботу алгоритмів.


Дослідники з Массачусетського технологічного інституту під керівництвом Александра Аміні (Alexander Amini) запропонували новий спосіб позбавлення датасетів, що містять обличчя людей, від упередженості. Вони вирішили додати «вирівнювання» вибірки прямо в алгоритм глибокого навчання, який спрямований на вирішення певного завдання, наприклад, на розпізнавання обличчя. Для цього вони додали до алгоритму нейромережу-автокодувальник, завдання якої - детально вивчити розподіл даних у навчальній вибірці, аналізуючи результати роботи основної нейромережі, яка визначає особи. Наприклад, якщо в основі алгоритму розпізнавання особи знаходиться бінарний класифікатор, який визначає наявність волосся на голові людини, і погано розпізнає лисих людей, нейромережа-автокодувальник, яка позбавляє його від упередженості, отримує сигнал про те, що для навчання йому потрібно взяти з вибірки більше зображень лисих людей. Всього вчені використовували чотири параметри «налаштування» використовуваних даних: вони спробували позбавити алгоритм від упередженості в питаннях кольору шкіри, статі людини, кількості волосся у неї на голові і повороту голови.

Вчені взяли 400 тисяч зображень осіб: 80 відсотків були взяті для навчання, а 20 відсотків - для тренування. В якості основи алгоритму розпізнавання осіб була взята згорточна нейромережа. Вчені зазначили, що в процесі навчання ймовірність отримання чотирьох випадкових зображень, які б сильно відрізнялися один від одного, зростала. Як стверджують самі автори роботи, їм вдалося знизити упередженість роботи алгоритму в питаннях використання даних з вибірки з 28 до 9 відсотків, при цьому точність розпізнавання збільшилася з 95 до 97 відсотків.

Автори роботи зазначили, що та частина алгоритму, яка відповідала за позбавлення вибірки від упередженості, навчалася без вчителя. На їхню думку, такий спосіб може допомогти системам комп'ютерного зору використовувати більш зважені вибірки, зрештою позбавляючи алгоритми від можливих проявів дискримінації.

Іноді упередженість великих даних стає і об'єктом дослідження. Наприклад, минулого року вчені використовували велику кількість текстів, опублікованих протягом XX століття, щоб простежити за тим, як з часом змінювалося ставлення до жінок і азіатам.

COM_SPPAGEBUILDER_NO_ITEMS_FOUND