Чутки в Twitter навчилися відловлювати на ранній стадії

Група фахівців з інформаційних технологій з Мічиганського університету представила на Міжнародній конференції WWW2015 (Флоренція, Італія) розроблене ними програмне забезпечення для раннього виявлення чуток у Twitter. Метод його роботи заснований на відловлюванні початкової хвилі скептичної реакції користувачів на суперечливу інформацію. На думку вчених, їхній софт здатний допомогти припинити поширення неправдивих чуток до того, як вони завдадуть якоїсь відчутної шкоди. Також дослідники представили експериментальну перевірку своєї програми на двох великих базах твітів. З роботою можна ознайомитися на сайті університету.


Зараз чутки в соціальній мережі Twitter відстежуються двома способами: спостереження за розвитком трендів і використання певних хештегів як сигналів. Обидва методи здатні розпізнати слух тільки вже на завершальній стадії, коли він набрав силу і, значить, викликав якісь потенційно небезпечні реакції в суспільстві. Вчені з Мічигану запропонували інший спосіб. Їхній метод ґрунтується на п'яти послідовних кроках і в його основі лежить первинна скептична реакція людей на сумнівну або шокуючу інформацію, поширювану «топікстартерами» чуток. Для цілей свого дослідження вони запропонували робоче визначення слуху, як якогось суперечливого, спірного твердження, що вимагає фактичної перевірки.


На першому кроці програма детектує так звані «сигнальні твіти» - повідомлення, що містять вирази сумніву, скепсису, питання тощо. Наприклад, «Це підтверджена інформація?»; «Чи це правда?», «Дійсно так?»; «Я сумніваюся»; «Мені здається, цього не може бути» та інші подібні висловлювання. На другому кроці проводиться кластеризація «сигнальних твітів» відповідно до їх змісту (або змісту твітів, для яких вони виступали відповіддю або коментарем). Іншими словами, висловлювання сумніву в твітах завжди йдуть у зв'язці з інформацією, з приводу якої воно виникло. На третьому кроці вичленовується ядерний вміст всіх твітів кожного кластера у вигляді одного ясного твердження. Це і є, потенційно, поширювана за допомогою слуху інформація. Наприклад, «На ядерній електростанції в Кореї сталася аварія». У четвертому кроці відсіюються нерелевантні твіти (вони можуть формувати окремі кластери), і виділяється кластери-кандидати, які, ймовірно, репрезентують будь-який слух. На п'ятому завершальному кроці, за допомогою декількох статистичних процедур, проводиться порівняння і ранжування кластерів-кандидатів. І остаточно виділяється один або кілька кластерів, що містять вірусно поширювані за допомогою чуток спірні твердження.

За заявою вчених, їх метод виявляє будь-який слух на 3,6 години раніше, ніж при використанні трендів, і на 2,8 години швидше, ніж при методі, що спирається на хештеги. Більш того, традиційні підходи дають тільки 10-ти процентну точність у виявленні чуток, в той час як експериментальна перевірка нової програми дала набагато більш вражаючі результати. Так, проаналізувавши масив твітів (близько 30 мільйонів) за квітень 2013 року, коли сталися вибухи на Бостонському марафоні, програма успішно виявила 110 чуток з точністю перевищує 50 відсотків. А на випадково обраному масиві твітів (1,2 мільярда) за листопад того ж року, коли не відбувалося якихось значущих подій, ряд чуток був детектований з точністю в 33 відсотки.

Інтерес до аналізу поширення чуток за допомогою соціальних мереж виник після того, як група хакерів зламала твіттер-аккаунт агентства Associated Press, від імені якого був випущений твіт такого змісту: "Термінові новини! Два вибухи в Білому домі. Барак Обама поранений ". Він моментально поширився серед користувачів соцмереж і призвів до падіння фондового ринку на 140 пунктів. І хоча AP швидко випустило спростування, експерти заявили, що часу для тих, хто заздалегідь знав про хакерську атаку, було достатньо, щоб використовувати падіння для своєї вигоди.

COM_SPPAGEBUILDER_NO_ITEMS_FOUND