Ботів у соцмережах видала перша цифра числа друзів

Дженніфер Голбек з Мерілендського університету в США продемонструвала, як можна визначати «підозрілу активність» у соцмережах за допомогою статистичного закону Бенфорда. Він говорить, що число «друзів друзів» одного аккаунта (точніше, перша цифра числа) має задовольняти логарифмічного розподілу. У тому випадку, якщо воно порушується, з великою ймовірністю даний обліковий запис - бот. Препринт роботи викладено на.


Закон Бенфорда - один з найбільш «контринтуїтивних» статистичних законів. Проте в літературі описано безліч його підтверджень. Сам закон формулюється так: для вибірки даних з «реального життя» частота, з якою кожна цифра зустрічається на першому місці числа, підпорядковується логарифмічному розподілу за формулою p (d) = logb (1 + 1/d). Тому закон Бенфорда ще називають законом першої цифри. Для десяткової системи обчислення (b = 10) це означає, що в будь-якій «природній» вибірці цифра «1» буде зустрічатися на першому місці з частотою близько 30%, а цифра «9» - близько 5%.


Законом Бенфорда описується розподіл висот будівель по всьому світу (незалежно від одиниць вимірювання), довжина річок, результати голосувань, економічні показники, населення міст, розмір геному, навіть ступінь стиснення формату JPEG. На сайті можна знайти велику кількість таких прикладів. Емпірично встановлено, що найкраще закону Бенфорда задовольняють дані, розкид яких становить хоча б кілька порядків, оскільки розподіл описується логарифмом.

Точність, з якою багато даних описуються законом Бенфорда, дозволила використовувати його для боротьби з підробкою фінансових документів. Ця система працює в наступному припущенні: якщо людина вписує у звіт вигадані цифри, вона інтуїтивно намагається розподіляти їх рівномірно, тобто всі цифри будуть зустрічатися на першому місці з однаковою ймовірністю.

Насправді ж статистика показує, що фінансові дані майже ідеально описують законом Бенфорда. Таким чином, якщо звітність у деякій фірмі йому не задовольняє, це, звичайно, ще не привід для звинувачень, але привід для розслідування. Те ж саме стосується виборів, наприклад, в 2009 в Ірані таким чином розкрили факт фальсифікації. У такому підході можуть бути і помилки: наприклад, якщо деяка компанія вважає за краще закуповувати товари вартістю до $39.2006, в їх звітності цифра «3» буде зустрічатися набагато частіше, ніж того вимагає закон Бенфорда.

У новій роботі автор вперше застосувала закон Бенфорда для детального дослідження соціальних мереж. На прикладі Twitter, Google +, Facebook, Pinterest і Livejournal вона розрахувала число передплатників, друзів і повідомлень для кожного користувача. Виявилося, що ці дані чудово описують законом першої цифри з одним винятком: у мережі Pinterest в розподілі параметра «підписаний на»... цифра «5» зустрічалася набагато частіше, ніж передбачав закон.

Після додаткової перевірки виявилося, що в цій мережі при реєстрації необхідно вказати не менше п'яти сфер інтересів, на які автоматично підписувався користувач. Багато хто після цього забуває або зовсім не вважає за потрібне змінювати цю графу, тому в розподілі цифра «5» показує аномальний пік.

Найцікавішою частиною роботи став аналіз так званих «егоцентричних» мереж. У його рамках розраховується розподіл числа «друзів друзів». Тобто для цього аккаунта підраховується число друзів, а потім вже для їхніх друзів вважається розподіл перших цифр.


Виявилося, що з 20988 користувачів тільки у 170 кореляція з законом Бенфорда була критично низькою. Ручний перегляд цих акаунтів показав, що всі вони (крім двох) входили в список «підозрілої активності», а в підсумку виявилися просто ботами.

COM_SPPAGEBUILDER_NO_ITEMS_FOUND