Якщо штучний інтелект буде робити те, що ми вимагатимемо, це стане великою проблемою

У фільмі 1997 року «Виконавець бажань» (Wishmaster) персонажі страждали від виконання неакуратно сформульованих бажань: виконував їх джинн був формально точний, але не враховував справжніх уподобань замовників. Чи не такі будуть і штучні інтелектуальні системи, які намагаються виконувати висловлені нами бажання?

Небезпека застосування машин зі штучним інтелектом, що виконують наші накази, полягає в тому, що бажання ми схильні висловлювати дуже недбало. Рядки коду, які будуть «оживляти» ці машини, неминуче забудуть врахувати нюанси і не сформулюють на цей рахунок виразного застереження, в результаті чого ШІ-системи отримають цілі і спонукання, не узгоджені з нашими справжніми уподобаннями.

Класичний уявний експеримент, що ілюструє цю проблему, поставив у 2003 році оксфордський філософ Нік Бостром (Nick Bostrom). Описаний ним суперінтелектуальний робот, запрограмований виготовляти канцелярські скріпки, тобто виконувати, здавалося б, нешкідливу мету, з часом перетворює весь світ на гігантську фабрику з виробництва скріпок.

Такий сценарій нерідко оцінювали як умоглядальний, як такий, що становить небезпеку, яка може виникнути тільки в далекому майбутньому. Але відхиляючий ШІ став проблемою набагато раніше, ніж очікувалося.

Візьмімо найтривожніший приклад - той, який негативно вплинув на мільярди людей. Відеохостинг YouTube, прагнучи максимізувати час переглядів, використовує створювані на базі ШІ алгоритми рекомендації контенту. Два роки тому вчені-комп'ютерники і користувачі почали помічати, що алгоритм YouTube, схоже, прагне виконувати поставлену перед ним мету, рекомендуючи все більш екстремальний і конспірологічний контент. Одна дослідниця повідомила, що після того, як вона переглянула відеоматеріали про мітинги, проведені в рамках виборчої кампанії Дональда Трампа, YouTube запропонував їй відео з «демагогічними промовами білих расистів, заявами про те, що ніякого Голокосту не було, і іншим контентом, що викликає тривогу». Входячи в раж, алгоритм виводить за рамки політики. "Відео про вегетаріанство, - зазначила дослідниця, - привело мене до відео про веганство. Відео про біг боягузцею - до відео про біг на надмарафонські дистанції ". У результаті, як показують дослідження, алгоритм YouTube просто для того, щоб ми продовжували перегляди, сприяє поляризації та радикалізації суспільних поглядів і поширює дезінформацію. «Якби я планував застосування цієї технології в масовому масштабі, я б, мабуть, постарався уникнути такого ефекту при її апробації», - говорить Ділан Хедфілд-Менелл (Dylan Hadfield-Menell), дослідник ШІ з Каліфорнійського університету в Берклі (University of California, Berkeley).

У програмістів YouTube, ймовірно, не було мети радикалізувати людство. Але кодери не можуть думати про все на світі. «Нинішній спосіб створення ШІ покладає на розробників занадто велике навантаження, змушуючи їх передбачити, якими виявляться наслідки цілей, які вони вводять у свої системи, - зазначає Хедфілд-Менелл. - І помилки, допущені багатьма розробниками, - це те, з чого необхідно винести уроки».

Головний аспект проблеми полягає в тому, що люди часто не знають, на що націлювати системи ШІ, тому що не знають, чого насправді хочуть. "Запитайте когось на вулиці: «Чого ви хочете від свого безпілотного автомобіля?» - і вам дадуть відповідь так: «Запобігання зіткненням», - говорить Дорса Садіх (Dorsa Sadigh), фахівець з ІІ Стенфордського університету (Stanford University), що спеціалізується на взаємодії людини і робота. людям хочеться ще багато чого ". Супербезпечні безпілотні автомобілі їздять занадто повільно і гальмують так часто, що пасажирам стає погано. Коли програмісти намагаються перерахувати всі цілі і переваги, які повинен одночасно враховувати робомобіль, список неминуче виявляється неповним. За словами Садіх, коли вона, керуючи автомобілем, їхала по Сан-Франциско, її часто змушували гальмувати безпілотні машини, що зупинялися на дорозі. Вони, як і вимагає їх програма, ретельно уникають контакту з рухомими об'єктами, але такими об'єктами можуть бути і пластикові пакети, що переміщуються вітром.

Щоб уникнути такого роду пасток і створити теоретичну базу для вирішення проблеми усунення відхилень ШІ, дослідники приступили до розробки абсолютно нового методу програмування машин-помічників. На формування цього підходу найбільшою мірою вплинули ідеї та дослідження Стюарта Рассела, 57-річного вченого-комп'ютерника з Берклі, який має нагороди за наукову діяльність. У 80-х і 90-х роках ХХ століття Рассел прославився новаторськими дослідженнями, присвяченими раціональності, прийняттю рішень і машинному навчанню. Він - головний автор популярного підручника "Штучний інтелект: сучасний підхід "(Artificial Intelligence: A Modern Approach). За останні п'ять років його голос став особливо впливовим у тому, що стосується проблеми усунення відхилень. Цей стриманий британець у чорному костюмі, який вміє складно і толково говорити, - завсідник міжнародних зустрічей і дискусійних форумів, де обговорюється ШІ - пов'язані з ним ризики і довгострокове управління.

На думку Рассела, сьогоднішній ШІ, який переслідує ту чи іншу мету, є, за великим рахунком, обмеженим, незважаючи на всі його успіхи у виконанні конкретних завдань - таких, як перемога над людиною в Jeopardy! і го, розпізнавання предметів на зображеннях і слів у промові і навіть твір музичних і літературних творів. Рассел стверджує, що вимога від машини оптимізувати «функцію винагороди» - ретельний опис деякої комбінації цілей - неминуче веде до відхилення ШІ, оскільки в рамках даної функції неможливо врахувати і правильно зважити всі цілі, підцілі, винятки і застереження або навіть лише визначити, які з них правильні. У міру того, як самостійні, «автономні» роботи будуть ставати все більш розумними, задавати їм цілі буде все більш небезпечно, бо роботи, здійснюючи свою функцію винагороди, будуть невблаганні і при цьому постараються перешкодити нам їх відключити.

Згідно з новим підходом, замість того, щоб переслідувати свої власні цілі, машина повинна прагнути задовольняти переваги людини; її єдина мета повинна полягати в тому, щоб дізнатися якомога більше про ці уподобання. Рассел стверджує, що системи ШІ завдяки невпевненості в наших уподобаннях і необхідності звертатися до нас за керівними вказівками будуть залишатися безпечними для людини. У недавній книзі «Сумісний з людиною» (Human Compatible) Рассел викладає свою тезу у формі трьох «принципів корисних машин», які вторять трьом законам робототехніки Айзека Азімова (Isaac Asimov), сформульованим 1942 року, але не такі наївні. Версія Рассела така:

  1. Єдина мета машини - максимально реалізувати людські уподобання.
  2. Машина спочатку не впевнена в тому, що їй відомі ці уподобання.
  3. Кінцеве джерело інформації про вподобання людини - це поведінка людини.

Всі останні роки Рассел і його команда в Берклі, а також групи однодумців у Стенфорді, Техаському університеті (University of Texas) та інших місцях розробляють інноваційні способи дати ШІ-системам ключ до впізнавання наших уподобань, навіть якщо останні явно не описані.

Зазначені команди дослідників вчать роботів з'ясовувати переваги людини, яка не формулює їх і, можливо, навіть не впевнений в тому, чого хоче. Ці роботи знаходять здатність пізнавати наші бажання, спостерігаючи за їх смутною демонстрацією, і навіть винаходити нові способи поведінки, що допомагають усувати двозначність людських уподобань. (Наприклад, зустрічаючи чотиристоронній знак «стоп», безпілотні автомобілі виробили звичку трохи відступати, пропонуючи рухатися вперед водіям-людям). Досягнуті результати свідчать про те, що ШІ може дивно точно визначати наші настрої і переваги навіть тоді, коли доводиться з'ясовувати їх на льоту.

«Це лише перші спроби формалізувати проблему, - підкреслює Садіх. - Люди зовсім недавно усвідомили, що взаємодія людини і робота вимагає більшої уваги».

Чи дійсно нинішні стартові зусилля і три принципи корисних машин Рассела віщують ШІ світле майбутнє, поки неясно. Цей підхід пов'язує успішний розвиток робототехніки з її здатністю розуміти, що реально, насправді воліють люди, і вже кілька років роботи роблять спроби вирішити дану задачу. На думку дослідника усунення відхилень Пола Крістіано (Paul Christiano) з OpenAI, Рассел і його команда, як мінімум, значно прояснили проблему і допомогли «визначити контури бажаної поведінки - того, до чого ми прагнемо».

Як зрозуміти людину

Основна теза Рассела прийшла до нього як осяяння, як піднесений акт розуму. Це було в 2014 році, під час творчої відпустки, коли вчений з Берклі, перебуваючи в Парижі, прямував на репетицію хору, куди записався як тенор. «Оскільки у мене не дуже хороший музичний слух, - згадував він нещодавно, - я завжди старанно вивчав музику, добираючись на репетицію на метро». Хорове аранжування «Agnus Dei» Семюеля Барбера (Samuel Barber) 1967 року наповнило його навушники, коли він мчав у поїзді під Містом Світу. "Це була така чудова музика! - сказав Рассел. - І тут мене осінило: те, що має значення, і, отже, те, що має бути метою ШІ, - це в певному сенсі сукупний тембр людського досвіду ".

Роботи, усвідомив науковець, не повинні переслідувати такі цілі, як максимізація часу переглядів або кількості скріпок; їм просто-напросто слід прагнути покращувати наше життя. Залишилося всього лише одне питання: «Якщо обов'язок машин - намагатися оптимізувати сукупний тембр людського досвіду, як же їм з'ясувати, що він собою являє?»

Новий підхід Рассела сягає корінням у набагато більш далеке минуле, ніж 2014 рік. У 70-х роках ХХ століття, ще будучи лондонським школярем, він вивчав штучний інтелект, програмуючи хрестики-нолики і шахові партії на комп'ютері сусіднього коледжу. Пізніше, після переїзду в область затоки Сан-Франциско, сприятливу для дослідження ШІ, він почав розмірковувати про раціональне прийняття рішень. Незабаром науковець дійшов висновку, що таке прийняття рішень неможливе. Люди навіть віддалено не раціональні, тому що в обчислювальному плані це нездійсненно: ми не можемо підрахувати, яка дія в будь-який даний момент часу трильйонами дій пізніше призведе до найкращого результату в нашому далекому майбутньому; і ШІ не може. Рассел припустив, що наш процес прийняття рішень є ієрархічним - ми досягаємо досить недосконалої раціональності, переслідуючи смутні довгострокові цілі за допомогою середньострокових, приділяючи при цьому найбільшу увагу нашим безпосереднім обставинам. Роботизованим агентам, вирішив він, слід робити щось подібне або, принаймні, розуміти наші принципи роботи.

Паризьке прозріння Рассела відбулося в поворотний для досліджень в області штучного інтелекту час. Кількома місяцями раніше штучна нейронна мережа, що використовувала широко відомий підхід під назвою «навчання з підкріпленням», шокувала вчених тим, що швидко навчилася з нуля грати і перемагати у відеоіграх Atari. Попутно вона навіть придумувала нові прийоми. При навчанні з підкріпленням ШІ вчиться оптимізувати свою функцію винагороди, наприклад свій рахунок у грі; коли він пробує різні варіанти поведінки, ті з них, які збільшують функцію винагороди, закріплюються і ймовірність їх використання в майбутньому зростає.

Ще в 1998 році Рассел розробив протилежний підхід, а після працював над його поліпшенням разом зі своїм співробітником Ендрю Ином (Andrew Ng). Система, що використовує «підхід, протилежний навчанню з підкріпленням», не прагне оптимізувати закодовану функцію винагороди, як при навчанні з підкріпленням; замість цього вона прагне зрозуміти, яку функцію винагороди оптимізує людина. У той час як при навчанні з підкріпленням система визначає дії, які найкраще ведуть до мети, при протилежному підході вона, коли їй надається певний набір дій, з'ясовує основну мету.

Через кілька місяців після свого прозріння, натхненного «Agnus Dei», на нараді з питань управління за допомогою ШІ в міністерстві закордонних справ Німеччини Рассел поговорив про підхід, протилежний навчанню з підкріпленням, з Ніком Бостромом, який здобув популярність завдяки прикладу зі скріпками. «Саме там дві сторони питання з'єдналися», - заявив Рассел. У метро він зрозумів, що машини повинні прагнути оптимізувати сукупний тембр людського досвіду. А тепер він зрозумів, що, якщо їм неясно, як це зробити, - якщо комп'ютери не знають, що воліють люди, - «вони, щоб дізнатися побільше, можуть скористатися підходом, протилежним навчанню з підкріпленням».

При стандартному застосуванні даного підходу машина прагне з'ясувати функцію винагороди, яку переслідує людина. Але в реальному житті ми повинні бути готові активно допомагати їй вивчати нас. Повернувшись у Берклі після творчої відпустки, Рассел почав працювати зі своїми співробітниками над створенням нової, «кооперативної» версії підходу, протилежного навчанню з підкріпленням. При кооперативному підході робот і людина можуть взаємодіяти, з'ясовуючи справжні уподобання людини в ході різних «допоміжних ігор». Абстрактні сценарії цих ігор відображають реальні ситуації, що вимагають діяти в умовах дефіциту знань.

Серед розроблених дослідниками ігор є та, що відома як «гра з вимикачем» (off-switch game). Вона присвячена одному з найбільш очевидних способів, за допомогою яких автономний робот може відхилитися в бік від наших справжніх уподобань: шляхом виведення з ладу свого вимикача. Алан Тьюрінг у 1951 році (через рік після того, як опублікував новаторську статтю про ШІ) в радіолекції BBC припустив, що можна «утримувати машини в підпорядкуванні, наприклад, відключаючи в стратегічні моменти їх харчування». Нині таке рішення проблеми вважається занадто простим. Що заважає ШІ вивести з ладу власний вимикач або, в більш загальному сенсі, ігнорувати команди, що вимагають припинити максимізацію функції винагороди? Проблема вимкнення, написав Рассел в «Human Compatible», є «ядром проблеми управління інтелектуальними системами». Якщо ми не можемо вимкнути машину, оскільки вона противиться цьому, у нас серйозні проблеми. Якщо ми можемо, тоді ми зуміємо контролювати її та іншими способами ".

Ключем до вирішення даної проблеми може виявитися невизначеність щодо наших уподобань. Це продемонструвала формальна модель проблеми - гра з вимикачем, учасники якої людина на ім'я Гаррієт (Harriet) і робот на ім'я Роббі (Robbie). Роббі вирішує, чи діяти йому від імені Гаррієт - скажімо, чи забронювати їй хороший, але дорогий номер у готелі, - проте не знає, які її переваги. За прикидками Роббі, його виграш (схвалення з боку Гаррієт) перебуває в діапазоні від − 40 до + 60, тобто в середньому становить + 10 (Роббі думає, що Гаррієт, мабуть, сподобається вишуканий номер, але він не впевнений в цьому). Якщо нічого не робити, то виграш дорівнює 0. Але є і третій варіант: Роббі може запитати Гаррієт, чи хоче вона, щоб він продовжував діяти або воліє «вимкнути» його, тобто усунути від вирішення питання про бронювання номера. Якщо вона дозволить роботу продовжувати, середній очікуваний виграш стане більше + 10. Тому Роббі вирішить проконсультуватися з Гаррієт і, якщо вона того побажає, дозволить їй вимкнути його.

Рассел і його співробітники довели, що загалом результат буде таким: Роббі воліє надати Гаррієт самій прийняти рішення, якщо не буде точно знати, як у подібних випадках чинить сама Гаррієт. «Виявляється, - підкреслює Рассел в» Human Compatible «, - що невизначеність щодо мети необхідна для забезпечення того, щоб ми могли вимкнути машину, - навіть тоді, коли машина розумніша за нас».

"Як ми вловлюємо зміни у своєму настрої? Щоб зрозуміти це, бідному роботу доведеться попітніти ".

Ці та інші сценарії з дефіцитом знань були розроблені як абстрактні ігри, але в лабораторії Скотта Найкума в Техаському університеті в Остіні алгоритми з'ясування переваг перевіряють на реальних роботах. Спостерігаючи під час демонстрації сервірування столу за тим, як людина кладе вилку ліворуч від тарілки, Джеміні, двурукий робот лабораторії, спочатку не може зметикувати, чи завжди вилки повинні бути зліва від тарілок і чи завжди кожна вилка повинна опинитися на якомусь строго визначеному місці. Нові алгоритми дозволяють роботу освоїти цей патерн без великої кількості демонстрацій. Головне завдання Найкума - змусити системи ШІ кількісно визначати свою невизначеність щодо переваг людини, щоб вони мали можливість оцінювати, чи достатньо наявних у них знань для безпечних дій. «Ми, - зазначає дослідник, - прямо, без жодних обіняків, міркуємо про той розподіл цілей в голові людини, який може виявитися правильним, а також про ризики, пов'язані з цим розподілом».

Нещодавно Найкум і його співробітники знайшли ефективний алгоритм, що дозволяє роботам набувати набагато вищі навички виконання завдань, ніж у людей-демонстраторів. Що можуть вимагати від робомобіля в обчислювальному плані? Всього лише навчитися маневрувати так, як показали йому водії-люди. Однак Найкум і його колеги виявили, що за допомогою демонстрацій, ранжованих відповідно до того, наскільки добре людина-демонстратор впорався із завданням, можна поліпшити і значно прискорити навчання робота. "Агент-робот, - говорить Найкум, - ознайомившись з даним рейтингом, може подумати так: «Якщо це рейтинг, то що він пояснює?» Що відбувається частіше і що рідше з поліпшенням демонстрацій? " Остання версія цього алгоритму навчання, званого байєсовським T-REX (від виразу «trajectory-ranked reward extrapolation» - «екстраполяція винагороди, ранжованої за траєкторією»), виявляє в ранжованих демонстраціях патерни, що розкривають можливі функції винагороди, реалізацію яких людьми можна оптимізувати. До того ж алгоритм вимірює відносну ймовірність різних функцій винагороди. Застосовуючи байєсовський T-REX, робот, за словами Найкума, здатний ефективно визначити найбільш вірогідні правила сервірування столу або мету гри Atari «навіть у тому випадку, коли він не бачив ідеальної демонстрації».

Наш недосконалий вибір

Ідеї Рассела «опановують уми спільноти дослідників ШІ», констатує Йошуа Бенжіо (Yoshua Bengio), науковий керівник монреальського інституту Mila - одного з провідних у галузі дослідження ШІ. Вчений вважає, що підхід Рассела, при якому системи ШІ прагнуть зменшити власну невизначеність щодо уподобань людини, можна реалізувати за допомогою глибокого навчання - потужного методу, що забезпечив недавні революційні досягнення в області ШІ завдяки тому, що в пошуках паттерів система просіює дані через шари штучної нейронної мережі. «Для цієї реалізації, звичайно ж, потрібні додаткові дослідження», - зазначає він.

Рассел бачить дві основні проблеми. «По-перше, наша поведінка настільки далека від раціонального, що з'ясування наших справжніх основних уподобань може становити величезну трудність», - говорить він. Системи ШІ повинні будуть міркувати про ієрархію довгострокових, середньострокових і короткострокових цілей - про міріади уподобань і зобов'язань, якими ми опутані. Щоб допомагати нам (і уникати грубих помилок), роботам доведеться розбиратися в туманних мережах наших підсвідомих вірувань і нечітких бажань.

По-друге, людські уподобання змінюються. Наш розум еволюціонує протягом усього нашого життя, але, крім того, може змінюватися миттєво, залежно від нашого настрою або обставин, що змінилися, і робот змушений буде все це враховувати.

До того ж наші дії не завжди відповідають нашим ідеалам. Люди здатні одночасно дотримуватися цінностей, що суперечать один одному. Реалізацію яких з них слід оптимізувати роботу? Щоб не вийшло так, що він обслуговує найгірші з наших імпульсів (або, що ще гірше, посилює ці імпульси, як вищезгаданий алгоритм YouTube, тим самим полегшуючи їх задоволення), роботу не заважає з'ясувати те, що Рассел називає нашими метапредпоштіннями, - «переваги щодо прийнятності або неприйнятності тих чи інших процесів зміни переваг». Як ми вловлюємо зміни у своєму настрої? Щоб зрозуміти це, бідному роботу доведеться попітніти.

Як і роботи, ми прагнемо з'ясувати наші уподобання (які вони зараз і якими ми хочемо бачити їх у майбутньому), а також шляхи усунення неясностей і протиріч. Подібно до найкращого з можливих ШІ, ми прагнемо до того ж - принаймні, деякі з нас, у деякі моменти часу - зрозуміти «форму добра», як називав предмет пізнання філософ Платон. Як і ми, системи ШІ можуть, намагаючись відповісти на питання, зависнути назавжди - або у вимкненому стані чекати результатів, якщо невпевненість позбавила можливості виступати в ролі помічника.

"Я не розраховую, - говорить Крістіано, - що найближчим часом нам вдасться твердо встановити, що є добро, або отримати ідеальні відповіді на будь-які емпіричні питання, з якими ми стикаємося. Однак я сподіваюся, що системи ШІ, які ми створюємо, зможуть відповідати на ці питання так само, як і люди, і ітеративно покращувати відповіді, вже отримані людьми - щонайменше, іноді ".

Але в короткий список, складений Расселом, варто включити ще одну, третю за рахунком, важливу проблему: як бути з уподобаннями поганих людей? Що утримає робота від реалізації мерзенних цілей його злого власника? Система ШІ норовить обходити заборони так само, як багатій знаходить лазівки в податковому законодавстві, тому просто забороняти їй здійснювати злочини, ймовірно, буде марно.

Можна згустити фарби: що, якщо всі ми в деякому роді погані? Той алгоритм рекомендацій, який щосили намагається виправити YouTube, побудований, як не крути, з урахуванням людських імпульсів, що повсюдно зустрічаються.

Проте Рассел виконаний оптимізму. Хоча потрібні додаткові алгоритми і подальший розвиток теорії ігор, його інтуїція підказує йому, що розробникам вдасться впоратися зі шкідливими уподобаннями і що той же самий підхід, який розроблений для роботів, здатний виявитися корисним навіть «при вихованні дітей, шкільному та вузівському навчанні і так далі». Іншими словами, ми могли б, навчаючи роботів добру, знайти спосіб навчати і самих себе. «Здається мені, - додає Рассел, - що ми на правильному шляху».