Машинне навчання прискорить пошук мішеней для ліків
Канадські вчені застосували методи машинного навчання для відновлення 3D-форми молекул білка з двомірних зображень, отриманих кріомікроскопією. Висока роздільна здатність, точність і швидкодія нового методу обіцяють істотно спростити розробку засобів для лікарської терапії широкого діапазону хвороб, включаючи онкологічні захворювання і хворобу Альцгеймера. Опис роботи опубліковано в журналі
Один із напрямків сучасної медицини - таргетована терапія, заснована на виявленні особливостей молекулярної патології: лікарський препарат знаходить нетипові молекули білка, зв'язується з ними і змінює їх форму, змінюючи поведінку білка в організмі. Ідеальний препарат може зв'язуватися тільки зі специфічними білками, форма яких обумовлена конкретною хворобою - таким чином можна уникнути побічних ефектів, які виникають при зв'язуванні препарату з іншими білками в організмі. Таким чином, розробка нових лікарських препаратів нагадує збирання пазла: не знаючи тривимірну форму білка, завдання стає практично не дозволеним.
Одним з багатообіцяючих підходів відновлення тривимірної структури білків заснований на використанні мікроскопічних двомірних зображень, отриманих методом електронної кріомікроскопії (кріо-ЕМ). Цей метод використовує електронні мікроскопи для виконання десятків тисяч знімків заморожених зразків білка під різними кутами. Після того, як отримані двомірні зображення, їх потрібно об'єднати в точну 3D-модель високої роздільної здатності.
Існуючі методи дозволяють виконати це завдання за кілька днів, а то й тижнів, з використанням кластеру потужних комп'ютерів; при цьому для їх роботи потрібна вихідна експертна оцінка молекули, структуру якої потрібно відновити.
Новий підхід заснований на застосуванні стохастичного градієнтного спуску (SGD), а також алгоритмів оптимізації на базі методів максимального правдоподібності і методу гілок і кордонів. Набір методів машинного навчання об'єднано в програму cryoSPARC (cryo-EM Single-Particle Ab initio Reconstruction and Classification), яка працює на базі графічних процесорів (GPU). Програма виконує завдання визначення структури молекули протягом декількох годин або навіть хвилин, а основне нововведення методу полягає в тому, що метод не вимагає попередніх експертних знань про структуру молекули білка, що дозволяє отримувати в тому числі цілком несподівані структури макромолекул.
Стандартні методи градієнтного спуску, що застосовуються для наближення тривимірних моделей, чутливі до початкової ініціалізації: довільна початкова картинка може призвести до локального мінімуму функції помилки, далекого від шуканої 3D-моделі, в той час як коректна ініціалізація призведе до коректної моделі (глобального мінімуму) - тому важливо мати попередню експертну оцінку шуканої структури. При цьому класичний підхід використовує всі вихідні двомірні зображення на кожному кроці, що значно уповільнює процес. Застосований у новій роботі модифікований метод стохастичного градієнтного спуску на кожній ітерації використовує деякий довільним чином вибране підмножина початкових двомірних зображень для апроксимації 3D-моделі; за кожної ітерації метод використовує градієнти, розраховані на основі випадкового набору вихідних зображень, що дозволяє уникнути застрілювання в локальному мінімумі і забезпечити багаторазове оновлення відновлюваної моделі за один прохід всього вихідного набору двомірних зображень.
Метод був протестований на відомих наборах даних для молекул рибосоми і протеасоми: отримані моделі забезпечили дозвіл близько трьох ангстремів (один ангстрем дорівнює 10 _ 10 метра), при цьому моделі були побудовані за дві години і 70 хвилин відповідно - у відомих аналогах побудова цих моделей займає близько 20 годин.
Вчені розраховують, що новий метод дасть новаторський підхід до вивчення об'єктів структурної біології і допоможе у створенні нових ліків.