Ворожіння на білковій гущі

Алгоритм машинного навчання зміг передбачити структуру білка по ланцюжку амінокислот з точністю, яка в деяких випадках практично повністю збіглася з експериментальними даними. Один із засновників конкурсу, в рамках якого змагалися алгоритми, вже заявив про те, що після такого проблему визначення структури білків можна вважати «в певному сенсі вирішеною». Звідки взявся такий оптимізм, і наскільки він обґрунтований?

Форма визначає вміст

У білка чотири рівні організації. Первинна структура це, власне, те, в якій послідовності в молекулі білка йдуть амінокислоти. Всі інші рівні - вже про форму, тобто організацію в просторі: вторинна для фрагментів молекули, третинна - всього білка, а четвертична - міжбілкових взаємодій.


За формою білка можна визначити його функцію. Поглянувши на неї, можна сказати, яка у білка «професія» - чи служить він переносником речовин, працює ферментом або це взагалі котушка для намотки ДНК в ядрі. За формою також видно і те, як він «впишеться в колектив», тобто з якими ще білками зможе добре працювати. При цьому навіть мінімальні зміни амінокислотної послідовності можуть вплинути на форму білка і призвести в підсумку до тяжких наслідків. Крім того, є окремий клас прионних білків, які і без мутацій можуть складатися неправильно і перепрограмувати укладання інших таких же білків, що призводить до смертельних нейродегенеративних хвороб.

Не дивно, що попит на таке знання дуже великий: не тільки для фундаментальної науки, а й прикладної - наприклад, при розробці ліків. У того ж вірусу SARS-CoV-2 є кілька мішеней, заблокувавши які, можна, по ідеї, перешкодити йому розмножуватися. До таких, наприклад, належить ділянка спайк-білка, в якій вона розрізається протеазою - ця дія необхідна для потрапляння вірусу в клітку. Для пошуку речовини, яка б закрила протеазі доступ до цієї ділянки, потрібно для початку з'ясувати, як саме протеаза взаємодіє з білком, а потім за допомогою моделювання знайти молекули, які б підходили за формою до потрібної ділянки спайк-білка. Точність передбачення тут безпосередньо залежить від того наскільки добре ми знаємо, як виглядає 3D-структура спайк білка.

"Нагадаю, що геном коронавірусу був визначений ще в січні, а ліків прямої дії проти нього досі немає - пояснює молекулярний біолог Костянтин Северинов з Університету Ратгерса та Інституту молекулярної генетики РАН. - Якби у вчених був спосіб з перших принципів дозволяти тривимірні структури білків, то це не менший крок вперед для людства, ніж політ на Місяць або щось подібне. Справа в тому, що білки, які є акторами біологічних процесів у клітці - каталізують хімічні реакції, здійснюють хімічну і механічну роботу, передають сигнали, - вони діють саме за рахунок своїх тривимірних структур. Ці структури просто з знання геному ми отримати не можемо ".

Швидкий, дешевий і точний спосіб отримання таких структур сильно спростив би життя молекулярним біологам і медикам. Але - незважаючи на високий попит - такого методу поки немає. Все, що придумали до цього моменту, або дуже складно, або не дуже точно, а іноді і те, і інше.

Золотий стандарт

Структуру білка можна дізнатися експериментально - цим займається рентгеноструктурна кристалографія. У цьому випадку потрібно набрати достатню кількість білка, очистити і виростити з нього кристали. Після кристали поміщають під пучок рентгенівського випромінювання, який взаємодіє з кристалом білка, як з дифракційними ґратами, і розсіюється певним чином. Поєднавши воєдино величезне число таких картин розсіювання, отриманих з різних кутів, можна отримати дуже точні дані про положення атомів в кристалі - а значить і в білці.

Рентгеноструктурна кристалографія вже більше 60 років «золотий стандарт» в області - не тільки точний, але і дуже витратний. На те, щоб визначити структуру одного білка або навіть його частини, можуть піти місяці і навіть багато років роботи на вкрай дорогому обладнанні. Підбирати умови для того, щоб білок правильно кристалізувався, доводиться кожен раз заново, і це не завжди вдається. У Курчатівському інституті білки навіть відправляли кристалізуватися на МКС, щоб уберегти зростаючі кристали від перешкод. Опис структури конкретного білка іноді цілком тягне на окрему статтю в топовому науковому журналі.


"Це дуже довгий шлях, - каже Северинов. Сьогодні у нас коронавірус, а завтра буде щось ще. І для кожного нового об'єкта вам доведеться вирішувати завдання з нуля. Кристалографія білка - це значною мірою мистецтво, майже чаклунство. Багато проектів з визначення білкових структур займали дуже багато часу. Зрозуміло, що розвиток комп'ютерних технологій допоміг, але все одно - це довго. А структуру білків, які відмовлялися кристалізуватися, отримати було взагалі неможливо ".

Зміст визначає форму

Бюджетна альтернатива складній і дорогій лабораторній роботі - моделювання. Те, як саме згорнеться білок, визначається в цілому послідовністю амінокислотних залишків в його молекулі. Дізнатися її зараз не становить особливої праці - вона однозначно відновлюється за послідовностями нуклеїнових кислот. З'ясувати послідовність, завдяки різкому розвитку методів секвенування в останнє десятиліття, нескладно і недорого. Але однозначного алгоритму переведення амінокислотної послідовності в 3D-структуру немає.

Перші спроби в цій області були зроблені в 70-ті роки, коли Пітер Чоу і Джеральд Фасман придумали алгоритм, що пророкує вторинну структуру білка. Точність його була невелика, але він вже вмів худо-бідно знаходити альфа-спіралі, бета-листи і повороти. Але для того щоб відновити структуру білка повністю і правильно позиціонувати спіралі і аркуші один відносно одного, метод не підходив.

Для цього необхідно врахувати всі взаємодії між усіма амінокислотними залишками, а потім знайти таку конфігурацію ланцюга, при якій енергія цих взаємодій мінімальна. Але через свою розмірність завдання не вирішується в лоб: у білку занадто багато амінокислотних залишків (в середньому 300-600) і занадто багато можливих положень амінокислот один щодо одного, щоб перебрати всі варіанти.

Щоб обійти брак обчислювальних ресурсів, було створено проект розподілених обчислень Rosetta @ home, включитися до якого може кожен бажаючий. Крім того, з цього проекту зросла онлайн-головоломка FoldIt, в якій гравці згортають білки. Найвдаліші структури потім аналізуються вченими - у гравців FoldIt навіть є в співавторстві з ними кілька статей.

Якщо спростити завдання і брати за основу для розрахунку спрощену модель молекули (де, наприклад, враховуються не всі, а тільки базові атоми), то завдання стає вирішуваним, але результат виявляється неточним. Варіантів укладання як і раніше багато, і шансів вибрати в якості результату субоптимальний або зовсім далекий від оригіналу досить багато: близькі між собою структури можуть сильно відрізнятися за потенційною енергією, і алгоритм може застрягти в локальному мінімумі.

Є й додаткові складнощі, з якими стикаються вчені. Так, наприклад, ми злукавили, сказавши, що форма білка залежить виключно від амінокислотної послідовності. Білок може користуватися послугами інших білків «укладачів», які допомагають йому звернутися правильно в структуру, до якої він би не «дійшов» самостійно. Крім цього, на фолдинг білка впливають зовнішні умови, наприклад, концентрації солей або температура.


Якщо у білка є родич, структура якого вже відома, то її можна використовувати замість шаблону. У цьому випадку точність передбачення різко зростає. Незважаючи на дорожнечу дослідів, за багато років в основній базі даних, на якій навчаються всі алгоритми машинного навчання подібного роду, накопичилося близько 172 тисяч експериментальних структур, і «допилювання» за шаблоном стає все акуратнішим. Але для нових білків без родичів у базі такий метод не застосовний.

Конкурс віщунів

Розробка нових методів для визначення структури білків та їх незалежна перевірка - основні цілі змагань CASP, які проводяться з 1994 року. Організатори знаходять кілька десятків різних за рівнем складності білків, структура яких вже визначена експериментально, але ще не опублікована, видають учасникам первинну структуру (ланцюжок амінокислот) і просять «розгадати» вже третинну за певний термін (як правило, кілька днів). Передбачення потім порівнюють з тим, що вийшло у кристалографів в лабораторії.

Структури накладають один на одного і вважають, наскільки точно алгоритм передбачив положення остова білкової молекули, а саме положення кожного C^ атома вуглецю. При цьому положення амінокислотних радикалів не враховуються. За точність налічуються бали, на підставі яких рахують кілька метрик і в підсумку визначають переможців.

Цього року в конкурсі брало участь більше ста команд. Незалежно від способу підрахунку балів, з великим відривом від інших учасників фінішував алгоритм AlphaFold2 на основі нейронних мереж - він набрав у два з половиною більше балів, ніж найближчий переслідувач (244 проти 92). Його творці, компанія DeepMind, вже не в перший раз опиняються в центрі уваги: до цього вони прославилися створенням AlphaGo, яка обіграла кращих на планеті гравців в го (про це докладніше читайте в матеріалі "Го: мова ураження "), та інших систем на основі машинного навчання.

Попередні змагання, CASP13, також виграла розробка DeepMind, але з набагато скромнішим рахунком. У конкурсі, крім іншого, використовується шкала абсолютної точності (GDT score), де 100 це абсолютний збіг, а до 30 балів, за словами самих організаторів, можна взагалі «набрати випадково». Так от, до позаминулого року алгоритми на конкурсі набирали максимум трохи більше сорока балів. Але позаминулого року ситуація почала змінюватися, і переможець - попередня версія програми AlphaFold - набрала близько 60 балів, а цього року медіанний рейтинг AlphaFold2 виявився 92 бали, що, за словами одного із засновників CASP Джона Молта (John Moult), вже цілком можна порівняти з даними «мокрої» структурної біології.


Аналогічно змінився і інший показник прогресу - здатність добре передбачати не тільки простенькі, але і складні для розгадки великі білки з мінімумом відомих споріднених 3D-структур. З кожним змаганням складність мішеней зростає, але цього року AlphaFold2 - за парою винятків - непогано розгадала практично всі запропоновані організаторами білки: дві третини моделей набрали більше 90 балів.

Одна зі структур, які в якості ілюстрації своїх успіхів показували представники DeepMind на конференції - це білок, структуру якого визначила група вчених з Сколтеха, ІМГ, разом з колегами з США і Швеції. "Структура нашого білка дуже складна. По-перше, сам білок дуже довгий, в ньому більше 2000 амінокислотних залишків. По-друге, менше 10 відсотків його послідовності хоч якось схожі на білки з відомими структурами, все інше було унікальне, - розповідає Северинов, один з авторів статті. - І ось ці громадяни примудрилися правильно передбачити практично всю структуру. Це було настільки вражаюче, ми витратили багато часу на те, щоб зробити нашу роботу, це коштувало нам багато сил, часу і грошей. Але дивним чином вони змогли передбачити нашу структуру правильно, витративши на це мінімум зусиль. Було дивне відчуття, що вони весь час стояли у нас за спинами і дивилися, що у нас робиться в лабораторії ".

У своєму прес-релізі DeepMind наводить абсолютні значення, кажучи, що в середньому їх модель помиляється в передбаченні позиції кожного C^ атома на 1,6 ангстрема, що цілком можна порівняти з розмірами самого атома. У деяких випадках, за словами Молта, передбачення програми були настільки схожі на результати кристалографії, що було незрозуміло, чим викликана ця невідповідність - помилками алгоритму або шумом в експериментальних даних.

Дивовижна точність методу і його застосовність для різних за складністю структур були прийняті експертами та організаторами конкурсу з ентузіазмом, а в блозі компанії DeepMind AlphaFold2 вже взагалі позиціонується, як вирішення базової проблеми в біології, яку не могли подужати протягом п'ятдесяти років.

Крім захоплення, підсумки змагання викликали масу питань і суперечок. Чи застосовна розробка на практиці? Чи дійсно проблема фолдингу білків вирішена (і що це взагалі була за проблема)? Чи замінить AlphaFold2 експериментальні методи і яких відкриттів чекати найближчим часом? Як, зрештою, вийшло домогтися такої точності?


Сеанс магії без викриття

На жаль, детальна відповідь на останнє питання поки відомий тільки команді DeepMind, - стаття з описом алгоритму AlphaFold2 поки не вийшла.

Як і багато інших програм, які брали участь у CASP14, нейромережа AlphaFold2 навчена на базі даних PDB. У ній зібрано близько 170 тисяч структур, отриманих експериментальним шляхом.

На вході нейромережа отримує не просто білкову послідовність з розміченими фізико-хімічними властивостями амінокислотних залишків, але і її порівняння з первинними структурами споріднених білків, отримане попередньо за допомогою іншого софту. Навіть якщо для них немає третинних структур, це дозволяє алгоритму витягнути додаткову інформацію з послідовності. Наприклад, якщо ми бачимо, що у інших організмів є парні заміни в одних і тих же місцях, то можна припустити, що вони компенсують один одного, тобто ці амінокислоти знаходяться в просторі поруч один з одним і взаємодіють. Варто зауважити, що цей підхід застосовується вже давно, - про один із прикладів його застосування ми розповідали ще у 2017 році. Але дослідники кажуть, що оптимізували його, дозволивши алгоритму брати до уваги не тільки пари амінокислот, але все вирівнювання цілком.

На підставі цих даних навчена нейромережа будує таблицю попарних відстаней між амінокислотними залишками. Після її «утрушують» в оптимальну 3D-модель класичними (не нейросетевими) методами. Попарні відстані між амінокислотами - це не єдиний спосіб представлення 3D-структур, але, мабуть, дуже вдалий. Як альтернативу йому можна використовувати, наприклад, просто карти контактів амінокислот або передбачати кути між сусідніми атомами (детальніше про те навіщо це робити можна прочитати в блозі Павла Яковлєва, директора з ранньої розробки і досліджень BIOCAD). Перша версія AlphaFold використовувала передбачення кутів поряд з попарними відстанями, але, судячи з того, що зараз розповідає DeepMind, в новій версії від цієї ідеї відмовилися.

На конференції CASP14 автори роботи розповіли, що існуючі провісники надмірно люблять локальні внутрішньобілкові взаємодії і недостатньо враховують глобальні структурні обмеження. І щоб виправити це вони розробили нову архітектуру, в основі якої лежать нейронні мережі з механізмом уваги. Це дуже широке формулювання з різними варіантами реалізації. Який саме клас мереж був використаний, - рекуррентні, згорточні або модні трансформери на кшталт GPT-3 і BERT, поки тримається в таємниці.


Механізм уваги дозволяє сконцентруватися на частині інформації залежно від контексту - і це схоже на те, як робимо ми самі. Уявімо, наприклад, що нам потрібно перекласти фразу «The animal didn't cross the street because it was too tired». Спочатку ми можемо переводити дослівно: «тварина не перейшла вулицю, тому що», але далі потрібно зрозуміти, до чого належить слово «it» - до «animal» або до «street». Тобто ми спрямовуємо свою увагу на попередні існуючі, щоб зрозуміти, яке з них зараз більш релевантне. У даному випадку зрозуміло, що мова про тварину - їй ми сміливо можемо приписати втому. Точно так само і в інших завданнях: різні частини вхідних даних можуть бути важливими різною мірою для різних частин передбачення - і механізм уваги дозволяє це формалізувати, динамічно присвоюючи різним частинам цих даних різні ваги.

Що з перерахованого дозволило команді DeepMind настільки поліпшити свої попередні результати, незрозуміло. Можливо, зіграла свою роль оптимізація старих задумок, а можливо імплементація нових, на кшталт механізму уваги. Варто пам'ятати, що база для навчання за два роки з минулих змагань теж підросла, і тепер у ній приблизно на 20 тисяч структур більше. Так що завдяки чому саме AlphaFold2 обійшла своїх конкурентів, ми сказати не можемо.

COM_SPPAGEBUILDER_NO_ITEMS_FOUND