Нейромережа DeepMind навчилася утримувати плазму в токамаці

Дослідники з DeepMind разом з колегами зі Швейцарії створили алгоритм машинного навчання для утримання плазми в токамаці. Вони навчили його на високоточному симуляторі, а потім показали працездатність підходу на реальному токамаці в Швейцарії. Стаття опублікована в.


DeepMind - британська компанія, що спеціалізується на розвитку методів машинного навчання, куплена Google в 2014 році. Найбільшу популярність вона отримала завдяки своїм ігровим алгоритмам, які обіграли людей в го, шахи і StarCraft II. Але дослідники з DeepMind також займаються складними прикладними завданнями, намагаючись вирішити їх за допомогою методів машинного навчання. Так, у 2016 році вони розробили алгоритм синтезу мовлення WaveNet, що суттєво вплинув на розвиток цього напрямку, а за останній рік з невеликим розробили модель AlphaFold для передбачення структури білка і систему AlphaCode для написання програмного коду. Торік компанія розповідала, що працює над застосуванням машинного навчання для вирішення проблем термоядерних реакторів, але на той момент не розкривала подробиць і результатів.


Термоядерний реактор передбачає створення плазми, в якій відбувається керований термоядерний синтез - злиття ядер з виділенням величезної кількості енергії. Для термоядерних реакторів пропонувалися різні конструкції, але на даний момент лідирує токамак - цю конструкцію розробили радянські фізики Тамм і Сахаров. Вона ж використовується в міжнародному реакторі ITER, який повинен почати роботу і отримати першу плазму в 2025 році. Токамак складається з тороїдальної камери, навколо якої розташовані магнітні котушки. Вони дозволяють утримувати плазму за допомогою магнітного поля, не даючи їй зіткнутися зі стінками токамака і зруйнувати їх.

Ще в середині XX століття стало ясно, що утримання плазми магнітним полем - вкрай складне завдання, тому що в ній неминуче виникають нестійкості. У підсумку навіть кращі токамаки утримують її протягом дуже невеликого часу: торік китайський EAST встановив рекорд, утримавши гарячу плазму (120 мільйонів градусів) протягом 101 секунди, а творці ITER розраховують на 400-600 секунд.

Дослідники з DeepMind на чолі з Йонасом Бюхлі (Jonas Buchli) і Бренданом Трейсі (Brendan Tracey) разом з колегами зі Швейцарського центру плазми Федеральної політехнічної школи Лозанни під керівництвом Федеріко Фушелічі (Federico Felici) показали, що алгоритм машинного навчання можна навчати параметрами керувати. Традиційно для цього завдання використовується набір алгоритмів-контролерів, кожен з яких відповідає за окремий цільовий параметр: вертикальне і горизонтальне положення плазми, її форма (профіль), струм.

Автори нової роботи запропонували використовувати єдиний і навчаний нейромережевий контролер. Йому необхідно задати бажані параметри плазми, яких може бути безліч, а також їх критичні величини, що дозволяють сформувати функцію втрат. Дослідники використовували метод максимальної апостеріорної оптимізації, здатний знаходити оптимальний режим роботи (policy) в умовах недостатнього обсягу даних. Він влаштований за принципом «виконавець-критик», де виконавець приймає рішення, а критик повідомляє йому, наскільки хороший результат воно дало. В даному випадку автори реалізували асиметричний варіант методу: при навчанні в симуляції використовується велика нейромережа-критик, а навчана їй нейромережа-виконавець для реального токамаку має набагато менший розмір. Це обумовлено обмеженнями за обчислювальною потужністю: контролер повинен працювати з частотою 10 кілогерц і витрачати на обчислення нових параметрів для котушок не довше 50 мікросекунд.

Нейромережа-виконавець побудована за типом багатошарного перцептрона з двома прихованими шарами по 256 елементів, а в критиці перед перцептроном стоїть рекуррентна LSTM-нейромережа. Алгоритми навчалися на високоточному симуляторі токамака, розробленому фахівцями Швейцарського центру плазми. Після навчання автори перевірили роботу нейромережі-виконавця на реальному токамаці в цьому центрі і підтвердили, що він здатний утримувати плазму і підтримувати різні її конфігурації, в тому числі подвійну, при якому в токамаці формується два окремих плазмових шнури.

Це не вперше, коли нейромережі використовують для управління вкрай складними машинами і фізичними процесами. Наприклад, у 2019 році ми розповідали, як алгоритм навчився коригувати параметри синхротрону, щоб знижувати коливання пучка випромінювання.


COM_SPPAGEBUILDER_NO_ITEMS_FOUND