Штучний інтелект навчився «по-людськи» грати в Quake III Arena

Розробники з DeepMind навчили систему штучного інтелекту грати в як людина, повідомляється в блозі лабораторії. З деталями можна ознайомитися тут.


Оновлено:у травні 2019 року стаття опублікована в.


Програмісти з лабораторії DeepMind навчили алгоритм штучного інтелекту адаптуватися до постійно мінливих карт у грі Quake III Arena. Для цього вони використовували навчання з підкріпленням (англ.reinforcement learning) - вид машинного навчання, при якому алгоритм навчається, не маючи при цьому навчальної вибірки у вигляді пари «вхідні дані - відповідь». У процесі тренування комп'ютер отримує відгук від середовища - наприклад, очки за успішне проходження рівня або штрафні бали за помилки - і завдяки цьому покращує свою роботу.

Для своєї роботи програмісти використовували режим Capture The Flag, де головна мета гравців - захопити прапор суперника, при цьому захистивши свій. Перемога присуджується тій команді, яка за п'ять хвилин зуміє отримати і утримати прапор опонента більшу кількість разів. Щоб комп'ютер навчився виробляти стратегію поведінки, а не просто запам'ятовував карту, дизайн рівнів щоразу змінювався. При цьому алгоритм вчився проходити гру так само, як і люди - спостерігаючи за оточуючим простір і виконуючи дії через емулятор ігрового контролера. При цьому розробники навчали не одного агента, а відразу декількох, які могли об'єднуватися і грати між собою. Кожен з них, однак, отримував власний відгук від середовища, що дозволило агентам генерувати власні внутрішні цілі, такі як захоплення прапора.

У результаті система, що отримала назву For The Win (FTW), навчилася грати в Quake III Arena на досить високому рівні. Вироблені їй стратегії виявилися стійкими до розміру карт, кількості учасників в команді і поведінки інших гравців. Щоб перевірити систему ШІ в дії, співробітники лабораторії DeepMind влаштували турнір, в якому взяли участь 40 осіб. Люди і агенти в іграх були випадково перемішані: вони могли потрапити як в одну команду, так і в протилежні. В результаті, система штучного інтелекту здобула більше перемог, ніж справжні гравці. Крім того, в опитуванні, яке було проведено після гри, учасники зазначили, що алгоритм був більш готовий до співпраці, ніж самі люди. Комп'ютер також навчився «людській» поведінці - наприклад, слідувати за гравцями своєї команди і займати базу ворога.

За словами творців, в майбутньому система ШІ ймовірно зможе бути адаптована і для більш складних ігор, наприклад StarCraft II або Dota 2. Підхід до навчання алгоритму є досить загальним, що дозволяє використовувати його в інших умовах.

У минулому система ШІ вже була використана для гри в StarCraft. Вона змогла освоїти тактики, зазвичай застосовувані тільки досвідченими гравцями.

COM_SPPAGEBUILDER_NO_ITEMS_FOUND