Штучний інтелект навчився зважувати об'єкти віртуального світу

Штучний інтелект, створений розробниками з Google DeepMind, навчився визначати характеристики об'єктів у віртуальному світі - зокрема, їх вага і кількість. Щоб зрозуміти, чим відрізняються одні предмети від інших, комп'ютеру довелося вступити в безпосередню взаємодію з ними. Стаття дослідників, що розповідає про процес навчання системи, викладена на сервері препринтів ArXiv.


Останні досягнення в галузі машинного навчання дозволяють штучному інтелекту змагатися з людиною в найрізноманітніших областях: наприклад, у грі в Го або в розпізнаванні усної мови. Однак, коли мова йде про фізичний контакт з навколишнім світом і розуміння властивостей об'єктів, комп'ютери все ще значно поступаються людям. Так, роботу, якою управляє нейромережа, необхідно дві години тільки для того, щоб навчитися переміщати маніпулятор до дверної ручки. Тому розробники активно вдосконалюють алгоритми, які в майбутньому дозволять машинам краще взаємодіяти із зовнішнім світом.


Автори нової роботи створили систему штучного інтелекту на базі LSTM-нейромережі, яка навчилася визначати вагу і кількість розташованих перед нею об'єктів. Ця нейромережа являє собою підвид рекуррентних нейромереж, для яких характерна наявність зворотного зв'язку (докладніше про LSTM і рекуррентні нейромережі ви можете прочитати в нашому матеріалі). Для її навчання дослідники створили два різних віртуальних світу, в яких комп'ютер міг взаємодіяти з навколишніми його предметами.

У першому світі перед штучним інтелектом (ШІ) знаходилося чотири однакових за розміром кубика, маса яких визначалася випадковим чином і змінювалася щоразу, коли експеримент починався заново. ШІ міг рухати кубики по вертикалі, прикладаючи до них певну силу (розробники не постачали його віртуальним маніпулятором, він взаємодіяв з предметами «безпосередньо»). Головне завдання комп'ютера полягало в тому, щоб навчитися знаходити найважчий кубик. Якщо він успішно справлявся із завданням, то отримував винагороду, якщо ні - штраф. Після багаторазового повторення експерименту ШІ «зрозумів», що для того, щоб правильно знайти найважчий кубик, необхідно попередньо підняти всі кубики, і тільки потім давати відповідь.

У другому віртуальному світі перед ШІ лежали п'ять кубиків, з яких була побудована вежа. Частина кубиків стояли один на одному, створюючи єдиний блок, в той час як інші кубики лежали окремо. Штучний інтелект повинен був визначити, скільки перед ним знаходиться предметів, також взаємодіючи з ними і отримуючи в залежності від своєї відповіді позитивний або негативний зворотний зв'язок від навколишнього середовища. З часом комп'ютер вибрав найкращу стратегію визначення правильної відповіді: він став руйнувати вежу і тільки потім оцінювати кількість всіх кубиків.

Такий метод називається навчанням з підкріпленням. Він передбачає, що випробувана система знаходиться в деякому середовищі (в даному випадку у віртуальному світі), про яку вона не має відомостей, але в якій може проводити певний набір дій. Дії переводять середу в новий стан, і система отримує від неї деяку винагороду або штраф. На основі постійного відгуку система вдосконалює свою роботу - подібний метод використовується для навчання роботів або ігрових систем штучного інтелекту.

Дослідники не говорять про практичне застосування створеної ними системи, проте припускають, що в майбутньому вона може бути використана для роботів, яким, наприклад, буде необхідно переміщатися по нерівних поверхнях. Крім того, система може стати в нагоді роботам-помічникам, яким доведеться взаємодіяти з навколишнім світом - наприклад, кухонним роботам або роботам-космонавтам.

Нещодавно фахівцям з Google вдалося навчити роботів зорово-моторної координації рухів при захопленні реальних предметів. Для цього вони навчили згорточну нейронну мережу передбачати ймовірність успішного захоплення, ґрунтуючись на зображеннях камери незалежно від її калібрування і вихідного положення робота.


COM_SPPAGEBUILDER_NO_ITEMS_FOUND