Що в облику тобі моєму: алгоритм, що пророкує оціночні судження осіб

Суспільство 09 грудня 2023

Зустрічають по одежині, а проводжають по розуму. Не суди книгу з її обкладинки. Зовнішність оманлива. Всі ці розхожі вирази тим чи іншим чином ставляться до вміння людини будувати припущення щодо іншої людини на базі виключно зовнішніх факторів. Зустрівши незнайомця, ми припускаємо його характер, статус і навіть інтелектуальні здібності залежно від зовнішності, більшою мірою залежно від рис і вираження обличчя. У цьому немає нічого поганого, оскільки це найчастіше не зовсім свідомий процес. Але чи є в такому «ворожінні» щодо осіб логіка і наскільки подібні судження відповідають дійсності? Часто припущення щодо людини виявляються невірними, але сам факт їх наявності є важливим соціальним аспектом. Вчені з Технологічного інституту Стівенса (США) розробили алгоритм, здатний імітувати оцінку людини за її обличчям, щоб зрозуміти, які припущення про ту чи іншу людину будуть будувати незнайомці, базуючись тільки на зовнішності. Наскільки точно алгоритм пророкує судження людини, які припущення були побудовані, і як ще можна використовувати цей алгоритм? Відповіді на ці запитання ми знайдемо в доповіді вчених. Поїхали.

Основа дослідження
Результати дослідження
Структура атрибутивних висновків
Прогнозування атрибутивних висновків
Фактори, що впливають на ефективність прогнозування
Маніпулювання атрибутивними висновками
Епілог

Основа дослідження

Якщо подивитися на світ дикої природи, то можна з упевненістю заявити про його різноманіття. Зовнішні міжвидові та внутрішньовидові відмінності відіграють важливу роль у різних аспектах життя тієї чи іншої істоти (полювання, пошук партнера, уникнення небезпек, конкуренція за територію тощо). Деякі види воліють бути непомітними, інші навпаки виставляють на показ свої найвидатніші деталі зовнішності (наприклад, самці павичів з їх неймовірними хвостами-віялами). Що ж стосується людини, то картина особливо не змінюється: хтось забарвлює волосся в яскраві кольори, хтось воліє одягатися у все сіре і бути непомітним, хтось взагалі не думає про все це. Однак, яку б тактику людина не обрала, один аспект завжди буде привертати найбільше уваги - особа. Так, побачивши незнайомця з яскраво-зеленим волоссям, ми першим ділом кинемо погляд саме на волосся, але другий (куди більш довгий і більш аналізуючий) погляд впаде на його обличчя. І ту починається неусвідомлений аналіз того, ким же може бути цей екстравагантний зеленоволосий тип.

Особи є одним з найважливіших стимулів, з якими стикаються люди. Перше, що візуально починають розрізняти немовлята, це саме особи. А обробка інформації, що відноситься до осіб, задіє особливі процеси в головному мозку людини. Дивлячись на особи, ми використовуємо певні атрибути, які їм приписуємо, часто неусвідомлено: худе, втомлене, світле, розумне тощо.

Ці атрибути можна розділити на дві умовні категорії: об'єктивні та суб'єктивні. У першому випадку ми оцінюємо вік, статуру, пол. У другому все куди більш цікаво, так як ми застосовуємо атрибути, які надалі відповідають на питання - чи можна довіряти власнику цієї особи чи ні.

Частіше, ніж би ми хотіли визнати, суб'єктивні атрибути, приписані нами тій чи іншій людині, не відповідають дійсності. Проте такими неточними судженнями грішать усі люди на планеті, незалежно від віросповідання, національності, орієнтації та освіти. Грубо кажучи, судити людей по особам (часто помилково) закладено в кожному з нас.

Вчені кажуть, оскільки про будь-яку особу можна судити за такими атрибутами, ці психологічні параметри універсальні в тому сенсі, що вони неявно визначені в просторі майже всіх можливих осіб, контекстів і умов спостереження. Ці фактори об'єднуються, щоб сформувати різноманітний «ландшафт» стимулів, що ускладнює захоплення відповідного психологічного змісту у всій його повноті.

Важливість аналізу атрибутів особи призвела до поширення методів наукового моделювання осіб, які загалом можна розділити на два підходи. Перший заснований на використанні фотографій осіб, часто пов'язаних між собою анотаціями орієнтирів. Другий генерує штучні особи за допомогою параметричних тривимірних моделей.

Фотографії забезпечують більший реалізм, але обмежені доступними наборами даних лицьових стимулів, які служать основою для інтерполяції, і самими алгоритмами інтерполяції, які часто вимагають високоякісних анотацій орієнтирів, недосяжних без втручання людини. Штучно створені особи не підпадають під ці обмеження, але їм не вистачає різноманітності і реалізму. Отже, жоден з підходів не дає працездатних моделей, які виражають все багатство і різноманітність людських облич.

Якщо ж мінімізувати людський фактор, а саме застосувати машинне навчання (нейронні мережі, наприклад), то можна отримати систему, здатну моделювати особи, використовуючи як вихідні дані добірки фотографій. Це третій підхід до моделювання осіб. Однак, навіть при найточніших репрезентативних моделях осіб, їх вкрай складно пов'язати з тим, як ці особи сприймалися б і оцінювалися б реальними людьми. Простіше кажучи, як людина будує припущення щодо іншої людини, судячи з її обличчя, це процес, який складно перевести в площину машинного мислення.

Автори розглянутої нами сьогодні праці, вважають, що ключем до розкриття наукового потенціалу цих моделей є великомасштабні набори даних про людську поведінку, недосяжні за допомогою традиційних лабораторних експериментів. Зокрема, такі великі набори даних надають достатньо доказів для визначення надійного зіставлення між виразними багатовимірними виставами з моделей машинного навчання та уявленнями осіб людини.

Вчені кількісно оцінили верхню межу надійності картування осіб з точки зору надійності висновків про атрибути, що лежать в основі. Потім вони визначили, як ця надійність масштабується залежно від кількості оцінюваних осіб, кількості оцінок однієї особи та розмірності простору ознак. Отримане зіставлення далі використовувалося для прогнозування і маніпулювання сприйняття довільних осіб. Іншими словами, вчені могли скоригувати фото обличчя так, щоб машина побудувала інше судження про нього.

Таке картування може бути обчислене для будь-якого психологічно значущого висновку про атрибути. У цій праці вчені зосередилися на трьох класах таких висновків.

По-перше, є висновки, що визначаються суб'єктивними враженнями щодо об'єктивних властивостей (наприклад, віку і комплекція). Ці більш об'єктивні властивості, які також включають укладання волосся, наявність аксесуарів (наприклад, окулярів), погляд і вираз обличчя, зазвичай вивчаються в комп'ютерному зору, де вони називаються «атрибутами» або «м'якою біометрією».

Потім йдуть висновки про суб'єктивні та соціально сконструйовані атрибути, такі як надійність і чоловіче/жіноче тощо.

Нарешті, є висновки про повністю суб'єктивні атрибути, такі як «знайомство», коли спостерігач є єдиним джерелом істини щодо спостережуваної особи (і її власника).

У дослідженні використовувався онлайн-краудсорсинг, щоб отримати оцінки атрибутивного виведення для трохи більше 1000 синтетичних (хоча і вельми натуралістичних) лицьових стимулів за 34 атрибутами (ознаками), з оцінками не менше 30 унікальних учасників на пару атрибут-стимул, в цілому 1020000 людських суджень.

Результати дослідження

Структура атрибутивних висновків

Щоб вивчити структуру атрибутивних висновків, необхідно було обчислити кореляцію між середніми значеннями оцінки осіб для кожної пари атрибутів (зображення № 1).

Зображення № 1

Багато атрибутів були сильно корельовані, в тому числі щасливий-товариський (r = 0.93) і домінуючий-надійний (r = -0.81). Тоді як інші значною мірою не були пов'язані: розумний-привабливий (r = 0.01), розумний-надійний (r = 0.02), ліберальний/консервативний-віруючий (r = 0.08), довірчий-привабливий (r = 0.05).

Хоча деякі з цих кореляцій узгоджуються з попередніми дослідженнями, інші - ні. По-перше, хоча попередня робота показала, що судження про надійність і домінантність часто мають негативну кореляцію або кореляція дуже мала (близько -0,2), в даному дослідженні кореляція (-0.81) виявилася набагато сильнішою. По-друге, раніше було виявлено, що судження про розум або компетентність сильно позитивно корелюють із судженнями про привабливість і надійність (зі значеннями до 0.8), тоді як у цій праці були виявлені лише незначні кореляції між цими висновками про атрибути.

Одним з пояснень таких розбіжностей може бути те, що використані в даній праці лицьові стимули більш різноманітні, ніж у раніше проведених роботах (особливо в аспекті віку, оскільки раніше не використовувалися дитячі особи). Це пояснення цілком правдоподібне, враховуючи, що кореляційна структура суджень про осіб дітей відрізняється від структури суджень про осіб дорослих.

Щоб перевірити цю гіпотезу, вчені перерахували міжатрибутні кореляції на підмножинах даних з обмеженим віковим діапазоном. Було виявлено, що включення дитячих осіб частково пояснює деякі невідповідності (наприклад, розумний-привабливий) і не пояснює інші (надійний-домінантний).

Також варто зазначити, що особи, які запам'ятовуються, були більш привабливими, про що свідчить позитивна кореляція між відповідними оцінками. Цей висновок не узгоджується з дослідженням, що фактична запам'ятовуваність осіб негативно корелює з привабливістю до такої міри, що передбачення запам'ятовуваності вірні. Нарешті, знайомі особи вважалися більш привабливими, що узгоджується з раніше зробленими висновками про те, що для людини куди приємніше звичайна (не модельна) особа.

Атрибут «зовні» (незалежно від того, чи було фото зроблено в приміщенні або просто неба) був включений в аналіз для оцінки можливих плутанин при використанні натуралістичних фотографій осіб. Було виявлено, що цей атрибут найменш корелює з іншими атрибутами, показуючи найменшу максимальну абсолютну кореляцію для кожного атрибуту (наприклад, зовні-довірчий r = 0.20).

Зображення № 2

Для порівняння, атрибутом з наступним найнижчим максимумом був худий/товстий (худий/товстий-привабливий, r = 0.43), який, незважаючи на подвоєння величини, був одним з атрибутів, які легше передбачити (зображення № 2). Крім того, факт того, що «зовні» мав найнижчу кореляцію з усіма іншими атрибутами (r = 0.08), вказує на мінімальний внесок контекстуальних ефектів через природний фон і освітлення.

Прогнозування атрибутивних висновків

Щоб змоделювати атрибут, необхідно було почати з багатовимірних векторів вистави zi = {z1,... zd}, призначених кожній синтетичній особі (i) у наборі стимулів за допомогою попередньо навченої сучасної GAN * (від generative adversarial network).

GAN * (генеративно-змагальна мережа) - алгоритм машинного навчання без учителя, побудований на комбінації з двох нейронних мереж, одна з яких (мережа G) генерує зразки, а інша (мережа D) намагається відрізнити правильні («справжні») зразки від неправильних.

GAN вивчила зіставлення кожного такого вектора із зображенням за допомогою великого навчання на великій базі даних фотографій реальних, несинтетичних осіб. Потім виконувалося моделювання кожного психологічного атрибута, виміреного за допомогою середніх оцінок (yi), як лінійної комбінації характеристик: yi = w0 + w1z1 +… + wdzd. Вектор терезів wk = {w1,... wd} представляє атрибут як лінійний вимір, що перетинає репрезентативний простір, і налаштований використанням перехресної перевірки.

Варто відзначити, що учасники опитування частково розходяться у своїх оцінках судженнях, через що складно сформулювати точний прогноз. Щоб краще зрозуміти стелю прогнозування, що накладається обмеженою міжекспертною надійністю, необхідно було розрахувати надійність для кожного атрибуту методом половинного розбиття, усередня квадрат кореляції між середніми значеннями 100 випадкових поділів оцінок для кожного зображення.

Цікаво, що моделі «знайомий» і «схожий на тебе» продемонстрували найменші розриви між ефективністю і надійністю. Це свідчить про те, що їх непередбачуваність не пов'язана з поганою якістю моделі або відсутністю корисних вхідних функцій. Швидше здається ймовірним, що фамільярність більшою мірою, ніж інші атрибути, заснована як на загальній концепції або досвіді, так і на набагато ширшій особистій концепції або досвіді; тільки перше можна передбачити для учасників у сукупності.

Атрибути, що відповідають деяким расовим або етнічним соціальним категоріям демонстрували більший розрив між надійністю та ефективністю моделі, ніж інші атрибути. Однією з можливих причин цього розриву є зміщення вибірки в генераторі стимулів.

Фактори, що впливають на ефективність прогнозування

Щоб охарактеризувати фактори, що впливають на ефективність прогнозування, було проведено дослідження впливу кількості оцінюваних осіб на ефективність прогнозування (зверху на зображенні № 3).

Зображення № 3

Криві ефективності були створені шляхом підгонки моделей для кожної з 30 випадкових вибірок зображень (від 100 до 1000 штук). Більшість атрибутів тільки вигравали від збільшення кількості оцінюваних осіб.

Потім вчені вивчили взаємозв'язок між кількістю оцінок, отриманих від унікальних учасників для кожної особи, і прогностичною ефективністю (посередині на зображенні № 3). Криві ефективності були створені шляхом підгонки моделей до наборів даних зі зменшеною вибіркою (від 5 до 30). Приріст ефективності за рахунок кількості оцінок зменшувався зі збільшенням кількості унікальних оцінок, але повільніше, ніж приріст за рахунок кількості осіб.

Нарешті, був досліджений взаємозв'язок між кількістю зовнішніх ознак (всього 512) і ефективністю прогнозування (внизу на зображенні № 3). Криві ефективності створювалися шляхом підгонки моделей з використанням скорочених наборів ознак, отриманих за допомогою аналізу основних компонентів (від 10 до 512).

У більшості випадків спостерігалося швидке насичення ефективності, але в деяких було незначне поліпшення при збільшенні кількості ознак. Оцінка різних профілів насичення показала, що 10 ознак цілком достатньо для задовільного рівня ефективності прогнозування. При цьому збільшення числа ознак тільки сприяє збільшенню цього рівня.

Маніпулювання атрибутивними висновками

Оскільки вивчені вектори атрибутів відповідають лінійним розмірам, існує можливість маніпулювати довільною особою, представленою ознаками zi, щодо атрибута k, використовуючи векторну арифметику: zi + ^ wk, де - скаляр, що керує додатною або негативною модуляцією атрибутів.

Було застосовано симетричний діапазон ^ близько 0 до кожного вектора атрибутів, щоб маніпулювати низкою уявлень осіб як в негативному, так і в позитивному напрямках, і декодувати результати для візуалізації з використанням того ж компонента декодера/генератора нейронної мережі, який використовувався для отримання уявлення.

Результати вищезгаданих перетворень показано на зображенні вище. Всі маніпуляції були вражаюче плавними і ефективними по відношенню до кожного параметру атрибуту. Наприклад, в аспекті атрибуту «довірчий» маніпулювання змінювало погляд, посмішку, форму і жіночність обличчя. Якщо ж було завдання збільшити атрибут «інтелект», то алгоритм намагався додавати до обличчя очки і змінювати вирази обличчя в цілому.

Варто зазначити, що маніпуляції з виведенням атрибутів можуть впливати як на внутрішні риси обличчя, так і на зовнішні риси. Коли змінюються тільки внутрішні елементи обличчя, це відбувається не тому, що GAN маніпулює тільки внутрішніми елементами, а тому, що зовнішні елементи ортогональні або не мають відношення до цього висновку атрибутів в області оброблюваної особи.

На закінчення свого дослідження вчені поставили цікаве питання - чи надійно згенеровані вище атрибутивні моделі змінюють уявлення учасників про трансформованих осіб? Щоб відповісти на нього, вчені провели серію експериментів за участю 1000 осіб.

У кожному з експериментів один з двох типів особи (штучне або реальне) поєднувався з одним з 10 різних атрибутивних вимірювань, обраних для представлення широкого спектру різних моделей і рівнів об'єктивності/суб'єктивності (вік, жіночність/мужність, худий/товстий, довірчий, привабливий, домінантний, розумний, товариський, запам'ятований і знайомий). Як і в експериментах з моделювання атрибутів, для експериментів зі штучними обличчями було випадковим чином згенеровано 50 унікальних синтетичних осіб. У кожному випробуванні учасникам показували одну особу і просили оцінити її.

Кожне з показаних учасникам осіб проходило кілька етапів маніпулювання атрибутами, щоб видавати в результаті три рівні вираженості того чи іншого атрибуту. Якщо перетворення моделі атрибутів дійсно змінює судження спостерігача про особу, то в процесі експериментів повинні бути помітні зміни оцінки з боку учасників.

Аналіз результатів дослідів показав, що маніпуляції атрибутами дійсно змінюють уявлення учасників про ту чи іншу особу. При цьому спостерігалася лінійна тенденція у зв'язку зі збільшенням рівня маніпулювання тим чи іншим атрибутом. Отже, особа, яка, ймовірно, характеризується як «надійний/довірчий», можна було шляхом маніпулювання атрибутів перетворити на «ненадійний» і навпаки.

Для більш детального ознайомлення з нюансами дослідження рекомендую заглянути в доповідь вчених.

Епілог

У розглянутому нами сьогодні праці вчені продемонстрували створений ними алгоритм, який був навчений моделювати оціночні судження людини у відповідь на демонстрацію осіб. Цей алгоритм мав передбачати, як людина характеризує іншу людину за рисами (атрибутами) її обличчя.

На етапі підготовки були використані дані, отримані від понад 1000 людей, яких попросили подивитися на фото осіб і оцінити. В результаті особам (а точніше їх власникам) приписувалися різні характеристики: вік, статура, інтелект, ступінь довірливості, ступінь привабливості тощо.

Отримані дані використовувалися для навчання нейронної мережі GAN, яка надалі могла імітувати оціночні судження реальних людей. В результаті отриманий алгоритм міг самостійно оцінювати і приписувати ті чи інші характеристики особам.

Куди цікавіше виявилося те, що зміна певних параметрів (атрибутів) особи за допомогою даного алгоритму може кардинально змінити його оцінку. Наприклад, особа, яка не викликає довіри, за допомогою алгоритму чудесним чином перетворюється на обличчя людини, якій ви готові довірити ключі від квартири.

Розробники усвідомлюють небезпеку такого функціоналу. Вони самі заявляють, що маніпулювання атрибутами особи можна застосовувати, наприклад, у передвиборних перегонах, роблячи особу одного кандидата довірчою, а особа конкурента більш відштовхуючою. Тому вчені відразу ж оформили патент на свою розробку і почали процес створення компанії для ліцензування алгоритму в заздалегідь схвалених етичних цілях.

Незважаючи на побоювання щодо шкідливості такої технології, вчені мають намір продовжити над нею працювати. У майбутньому вони сподіваються вдосконалити алгоритм, щоб він міг точно передбачати оціночні судження конкретної людини у відповідь на демонстрацію конкретних осіб.