Спеціальна теорія відносності допомогла комп'ютеру передбачити майбутнє

Британські фахівці з машинного навчання розробили систему прогнозування майбутніх подій, засновану на концепціях спеціальної теорії відносності: причинності, простору-часу Мінківського і світлових конусах. Алгоритм був успішно випробуваний у завданні передбачення та генерації нових кадрів на основі набору зображень. За словами розробників, створений ними підхід універсальний, може застосовуватися для безлічі завдань і буде затребуваний там, де необхідно прогнозування розвитку подій в майбутньому з урахуванням причинно-наслідкових зв'язків, наприклад в області медицини і в автономних транспортних засобах. Препринт викладено на arXiv.org.


Щодня, іноді самі того не помічаючи, ми намагаємося передбачити, як будуть розвиватися події навколо нас. Наприклад, якщо у автомобіля, що рухається перед нами, включено сигнал покажчика повороту, то можна припускати, що він з певною ймовірністю здійснить маневр у відповідному напрямку. Однак, автомобіль також може продовжити рух без змін, зупинитися або повернути в протилежну вказуваному напрямку сторону. Ці події ймовірні більшою або меншою мірою, і ми можемо очікувати їх, ґрунтуючись на досвіді взаємодії зі світом та інтуїтивному розумінні законів фізики і причинно-наслідкових зв'язків. З іншого боку, навряд чи ми будемо серйозно розглядати можливість того, що автомобіль раптово зникне і замість нього на дорозі раптом з'явиться динозавр.


На відміну від людей, у комп'ютерів немає інтуїтивного розуміння причинно-наслідкових зв'язків, тому прогнозування майбутніх подій для них виявляється непростим завданням. При цьому в багатьох областях, де сьогодні відбувається інтенсивне впровадження систем з машинним навчанням, поява такої здатності могла б підвищити рівень безпеки. Наприклад, автомобіль під керуванням автопілота міг би спрогнозувати і оцінити ймовірність того, що дитина, яка стоїть біля дороги, може раптово вибігти на проїжджу частину.

Існуючі підходи до вирішення завдання передбачення майбутнього в машинному навчанні зводяться, наприклад, до тренування моделей на послідовностях кадрів відео. Таким способом алгоритм навчають виявляти закономірності в подіях, які в подальшому можна використовувати для того, щоб згенерувати нові кадри, що раніше не існували, продовжують цю послідовність. Наприклад, можна показати послідовність кадрів з рухомою людиною, а потім попросити її створити наступні декілька кадрів, які б продовжили початкову послідовність. Однак підходи, що використовують серії та послідовності кадрів, мають схильність швидко накопичувати помилки зі збільшенням числа згенерованих кадрів.

Дослідники під керівництвом Атанасіоса Влонцоса (Athanasios Vlontzos) з Імперського коледжу Лондона використовували інший підхід. Вони розробили алгоритм на основі фундаментальних концепцій зі спеціальної теорії відносності (СТО), таких як простір-час і світлові конуси.

У СТО простір-час (або простір Мінківського) - це об'єднання тривимірного євклідового простору з четвертим часом вимірюванням. У такому просторі кожній події можна порівняти точку, просторові координати якої описують місце, де подія сталася, а тимчасова координата - момент часу, коли вона трапилася.

Обмеження на максимально досяжну швидкість розповсюдження сигналів (в СТО це швидкість світла) дозволяє виділити в просторі-часі область, звану світловим конусом, з центром у вихідній події. Багато точок у виділеній області пов'язані з вихідною подією причинно-наслідковими зв'язками. Так, у конусі майбутнього, що лежить вище вершини (вихідна подія) будуть розташовані всі точки, на які вихідна подія може вплинути, а в нижньому конусі минулого, - події, які могли вплинути на розглянуту подію у вершині. При цьому точки, що знаходяться за межами світлового конуса, не пов'язані причинно-наслідковими зв'язками з вихідною подією.

Розробники використовували цю концепцію для того, щоб обмежити варіанти можливих нових кадрів, що їх генерують алгоритмом, такими, які близькі за змістом до вихідного зображення і відкинути зображення, що сильно відрізняються від нього. Як основу для алгоритму було обрано різновид популярного методу для навчання генеративних моделей - варіаційний автокодувальник Пуанкарі. Зображення, що подаються на вхід, перетворюються енкодером на перегляд у прихованому просторі, який володіє властивостями простору Мінківського з вісьмома просторовими та одним часовим вимірюваннями. Така розмірність простору була обрана як оптимальна експериментальним шляхом. Потім алгоритм будує світлові конуси навколо цих точок і шукає їх перетин для того, щоб виділити ту частину прихованого простору, в якій можуть знаходитися майбутні (або минулі, в нижньому конусі) кадри. Подібні кадри виявляються недалеко один від одного. Надалі виробляючи вибірку з цього підпростору, можна намагатися передбачати майбутні кадри.


Як набори даних для навчання моделі дослідники використовували модифікований набір MNIST, що складається з невеликих фрагментів відео з рукописними цифрами, що переміщуються. Кожен фрагмент - це послідовність 30 кадрів. При цьому один з них береться з вихідного набору даних MNIST, а наступні кадри - випадкові безперервні зсуви вихідного зображення. Всього було використано 10000 фрагментів з цього набору. Крім того, розробники використовували набір даних KTH action recognition dataset, що складається з коротких відеокліпів, що демонструють рухи людей, наприклад ходьбу або помахи руками. При цьому потрібно зауважити, що кадри в тренувальних наборах сприймалися алгоритмом розрізнено, а не у вигляді пов'язаних послідовностей або серій.

Потім дослідники доручили алгоритму генерацію безлічі потенційно можливих кадрів на основі вхідного одиночного тестового кадру. Незважаючи на те, що у вагах нейромережі відсутня тимчасова інформація, оскільки навчання проходило на сукупності окремих кадрів, а не їх послідовностях, виявилося, що алгоритм здатний прогнозувати відповідні майбутні можливі кадри. Наприклад, якщо на вхід подається кадр, на якому зображений людина з коротким волоссям і в сорочці, то алгоритм генерує найбільш відповідні кадри, на яких зображена така ж людина, і відкидає сильно відрізняються кадри, наприклад з людьми з довгим волоссям або без сорочки.

Як стверджують автори дослідження, розроблений ними алгоритм не схильний до ефекту накопичення помилок, оскільки він не покладається на здатність нейронних мереж витягувати і запам'ятовувати структурну і тимчасову інформацію з оброблюваних зображень. На даний момент діаметр конуса вибирається вручну і вважається фіксованим, що означає постійну швидкість еволюції для всіх кадрів і конусів. Однак в реальності ці швидкості можуть бути різними. У майбутньому дослідники планують впровадити автоматичну підбудову діаметрів світлових конусів.

Алгоритм може використовуватися в областях, де потрібне прогнозування можливих варіантів розвитку подій. Наприклад, крім застосування в автопілотах для підвищення безпеки автономних транспортних засобів, новий підхід може бути використаний в медицині для прогнозування того, як лікарські препарати будуть впливати на стан пацієнта, або як буде прогресувати захворювання на підставі даних знімків МРТ і призначеного лікування.

Раніше ми розповідали про те, як дослідники з Facebook AI Research використовували змагальний автоенкодер для створення алгоритму, який змінює обличчя людини на відео таким чином, що його неможливо розпізнати.

COM_SPPAGEBUILDER_NO_ITEMS_FOUND