Алгоритм від DeepMind відновить втрачені фрагменти давньогрецьких текстів

Дослідники з DeepMind і Оксфордського університету представили PYTHIA - епіграфічний алгоритм, який відновлює всі можливі варіанти втрачених написів на пам'ятках давньогрецької мови. Алгоритм на основі енкодера і декодера з довгою короткостроковою пам'яттю аналізує решту фрагментів тексту і доповнює написи з урахуванням контексту, користуючись відомим йому словником. Представлена система в передбаченні загублених фрагментів в середньому робить менше помилок, ніж фахівці в області давньогрецької епіграфіки. Препринт з описом роботи алгоритму опублікований на arXiv.org, коротко про нього повідомляється в блозі DeepMind.


Розшифровці написів на твердих (наприклад, кам'яних або мармурових) лінгвістичних пам'ятниках присвячена окрема наукова дисципліна - епіграфіка. Через те, що більшість пам'ятників зберігаються не повністю, фахівцям у цій галузі доводиться відновлювати втрачені фрагменти тексту. По суті, якщо втрачено всього кілька окремих графем, знаючи мову оригіналу та історичний контекст (найчастіше пам'ятники добре датуються, а багато стародавніх мов вивчені досить докладно) розшифрувати текст не дуже складно. Складність завдання підвищується, коли пропусків багато - тут для вирішення неоднозначності доводиться використовувати і контекст збережених на пам'ятнику фрагментів.


Новий алгоритм, розроблений дослідниками під керівництвом Янніса Ассаеля (Yannis Assael) з DeepMind, добре підходить для тих випадків, коли відновлення втрачених фрагментів тексту може зайняти багато часу якраз через неоднозначність написаного і безліч варіантів. Для навчання алгоритму вони використовували корпус давньогрецької писемності PHI: з нього взяли тексти, датовані періодом з сьомого століття до нашої ери по п'яте століття нашої ери.

На основі PHI вчені зібрали новий корпус PHI-ML. Для нього дослідники склали частотний словник усіх символів, на основі чого визначили основний «алфавіт»: до нього увійшли 147 символів, включаючи всі букви алфавіту, знаки перепинання та інші службові знаки (наприклад, позначення довжини гласного) а також - додатково - тире для позначення пропущених місць і знак питання для позначення тих знаків, які потім повинні бути передбачені моделлю. З корпусу також прибрали лінгвістичну розмітку, зроблену укладачами корпусу. Всього в корпус PHI-ML увійшли 3,2 мільйона слів.

Сам алгоритм PYTHIA (він названий на честь давньогрецької жриці Піфії, яка, за переказами, володіла даром передбачення) включає в себе енкодер і декодер, кожен з яких заснований на нейромережі з довгою короткостроковою пам'яттю (LSTM). Алгоритм отримує на вхід текст, де пропущені фрагменти замінені на тирі, а ті, які треба передбачити, - на знак питання. Спочатку необхідні знаки передбачаються з урахуванням таблиці їх векторного уявлення - грубо кажучи, на порожні місця в словах вставляються найбільш ймовірні за частотністю букви. Додатково для поліпшення якості роботи до системи був підключений словник з 100 тисяч найбільш частотних слів в корпусі: для кінцевого передбачення алгоритм орієнтується в тому числі і на нього.

Роботу PYTHIA порівняли з кількома алгоритмами на основі аналізу n-грамів, а також попросили розшифрувати відсутні фрагменти декількох дослідників, які займаються давньогрецькою епіграфікою. Частота помилок (з урахуванням помилок першого і другого роду) алгоритму склала 30,1 відсотка - він робить менше помилок, ніж всі інші алгоритми і професіонали-люди (для них частота помилок склала 57,3 відсотка). Ймовірність правильної відповіді в 20 перших передбаченнях моделі склала 73,5 відсотка, що також краще, ніж у всіх інших алгоритмів. Найбільшої ефективності алгоритм досягав у міру зростання величини контексту: так, для кращої роботи, за словами вчених, PYTHIA необхідно враховувати мінімум 500 поруч розташованих символів.

На думку авторів, представлений алгоритм може значно спростити і підвищити ефективність розшифровки загублених фрагментів стародавніх текстів - зрозуміло, якщо для них збереться досить великий корпус. Варто відзначити, що покладатися в епіграфіці тільки на алгоритми все одно не можна - багато в чому тому, що точність передбачення далека від ідеалу. При цьому скорочення можливих варіантів розшифровки за допомогою PYTHIA, швидше за все, сильно допоможе дослідникам. Вихідний код алгоритму, а також зібраний корпус автори роботи виклали у відкритий доступ.

Одним з найцікавіших з точки зору епіграфіки історичних пам'яток по праву можна назвати Розеттський камінь, написи на якому зроблені на давньогрецькому, а також на єгипетському - ієрогліфічним і демотичним листом. Саме цей пам'ятник на початку XIX століття допоміг лінгвістам дешифрувати єгипетські ієрогліфи. Більше про Розеттський камінь ви можете дізнатися в нашому матеріалі «Відчуй себе Шампольйоном» - там же ми підготували для вас лінгвістичні завдання з розшифровки стародавніх листів.


COM_SPPAGEBUILDER_NO_ITEMS_FOUND