Математики навчилися передбачати «завали» в електронній пошті

Колектив вчених з Іспанії та США зробили додаток, який вміє передбачати хід електронного листування: через скільки прийде відповідь, якого вона буде розміру, і скільки листів будемо в ланцюжку. Препринт роботи опубліковано на сайті.


Дослідження авторів складалося з двох частин: спочатку вони провели статистичний аналіз вибірки, після чого навчали додаток з набору ознак, витягнутих на попередньому етапі. Вихідними даними послужили 16 мільярдів анонімних листів, наданих Yahoo.


При аналізі розглядалися три ключових параметри: швидкість відповіді на лист, частка листів, на які людина відповідала, еволюція листів в одному ланцюжку (як змінювалася довжина відповідей при збільшенні їх кількості). В якості змінних використовувалися вік, стать, день тижня, час доби.

Автори з'ясували, що молоді користувачі, серед них чоловіки особливо, в середньому відповідали на листи швидше і коротше. У робочий час на відповідь сильно скорочувалося порівняно з вихідними, а текст листів навпаки - був довшим.

При «перегрузі» листами цікава закономірність виявилася для молодих і літніх користувачів: перші відповідали на більшу кількість листів, але на шкоду довжині відповідей. Останні гірше справлялися з завалом, але зате він ніяк не позначався на «якості» відповідей.

На підставі отриманої статистики автори проводили машинне навчання з метою передбачити хід розвитку листування (час відповіді, розмір листа і довжину ланцюжка). Вони використовували набір з 83 ознак, а навчання проводили за трьома класами для кожного параметра. Для навчання використовувався метод «бегінга» (скорочення від bootstrap aggregation).

У результаті передбачувальна здатність склала близько 65 відсотків. На основі такого навчання поштові клієнти, наприклад, зможуть вибудовувати вхідні листи за пріоритетом або за передбаченим часом на відповідь.

COM_SPPAGEBUILDER_NO_ITEMS_FOUND