Нові метрики допоможуть знайти сенс в «hahaha» і «yaaay»

Американські лінгвісти розробили метрики для кількісного аналізу подовжених слів, вживаних при спілкуванні в соціальних мережах, - таких як «hahaha», «goooaaallll» або «yaaay». Статистику вживання таких слів вчені кількісно описали за допомогою двох незалежних показників: розтяжливості та збалансованості слова. Цей підхід можна використовувати для аналізу мови спілкування в різних додатках і впливу обмежень і сервісів, пишуть вчені в.


Щоб надати своєму висловлюванню емоційне забарвлення, в усній промові можна підвищити або знизити голос, або додати йому відповідну інтонацію. У письмовій літературній мові на допомогу прийдуть знаки перепинання і словесний опис емоцій, але при спілкуванні в інтернеті працюють трохи інші закони. Крім знаків перепинання (які не завжди працюють так само, як при інших способах спілкування), для вираження емоцій люди використовують емодзі або стікери, але і в рамках вербальної комунікації є свої прийоми: наприклад, можна писати тільки прописні літери або розтягнути слово, повторивши в ньому одну або кілька букв.


При спілкуванні в соціальних мережах вживання розтягнутих форм слова вже давно не рідкість - в них можуть повторюватися як гласні, так і згодні, при цьому відрізняється і емоційне забарвлення, яке надається репліці: повторення літер може демонструвати радість, злість, іронію або співчуття. Тому лінгвісти давно намагаються знайти зв'язок між довжиною розтягнутих слів і їх емоційним забарвленням і зрозуміти, наскільки швидко втрачається зв'язок з початковою імітацією розтягування складів у розмовній промові. Обмеження всіх цих досліджень у тому, що стандартні інструменти математичної лінгвістики (зокрема методи обробки природничої мови) з великими труднощами переносяться на мову спілкування в інтернеті, а спеціальних універсальних метрик для її аналізу практично немає.

Американські лінгвісти з Вермонтського університету під керівництвом Пітера Шерідана Доддса (Peter Sheridan Dodds) запропонували такі метрики для аналізу подовжених слів. Для цього вчені проаналізували випадкову вибірку англомовних твітів з 2008 по 2016 роки. Всього вчені проаналізували приблизно 100 мільярдів англомовних твітів, в яких вживалися розтягнуті форми слів.

Для кожного розтягнутого слова лінгвісти виділили ядро - тобто початкову форму, в якій повторень символів немає. За словами авторів роботи, це ядро може подовжуватися кількома способами: якщо повторюється кожен з символів (тобто «goal» перетворюється на «gggoooaaaaalllll»), повторюються тільки деякі літери слова (наприклад гласні: «goal» ^ «goooooaaaaal»), повторюються елементи, що складаються з декількох символів («ha» ^ «hahahhahahaa») або змішаний тип, що поєднує кілька принципів.

Для аналізу статистики використання подовжених форм вчені запропонували використовувати дві незалежні метрики: розтяжливість (stretch) слова і його збалансованість (balance). Перша величина фактично являє собою коефіцієнт Джині і показує, наскільки часто зустрічаються більш довгі форми слова (цей параметр дорівнює нулю, якщо розтягнуті форми взагалі в твітах не зустрічаються, і ближче до одиниці, якщо більш довгі форми зустрічаються часто). А друга - нормалізована ентропія, розрахована із середніх ймовірностей вживання подовжених форм слова, - показує неоднаковість повторення різних елементів у слові: якщо всі літери повторюються однакову кількість разів, то збалансованість дорівнюватиме одиниці, а якщо повторюється тільки одна буква з усього слова, то нулю.

Вчені виділили слова з найменшою і найбільшою розтяжністю і збалансованістю, а також проаналізували статистику вживання слів з одним ядром, але різною довжиною. Лінгвісти помітили, що для одного і того ж ядра частота вживання подовженої форми слова зменшується зі зростанням довжини слова за логарифмічним законом з невеликими відхиленнями біля кордонів: оскільки максимальна кількість символів у твітах обмежена, то хвіст розподілу піднімається вгору при наближенні до максимальної довжини в 140 символів (таке обмеження було на момент написання твітів).

Крім цього, вчені побудували дерева побуквених написань слів з повторюваними елементами і звернули увагу на частоту порушення правильного порядку літер у словах з двобуквеним повторюваним елементом (таких, як «hahaha»). Так, наприклад, слово «hahhahahahahahahaha» з зайвою «h» зустрічалося в вибірці цілих 13 894 разів. Лінгвісти відзначають, що запропоновані ними метрики можуть допомогти при аналізі опікунок в словах, їх статистичного розподілу і динаміки, а також для оцінки навмисності «опечатки».


За словами авторів роботи, запропонований ними метод можна використовувати для порівняння мови, що використовується при спілкуванні на різних платформах, або для оцінки впливу на мову функції автовиправлення або обмежень на довжину твітів.

Твіти - величезний масив даних, який можна використовувати не тільки для дослідження мови інтернет-спілкування, але і, наприклад, для аналізу особливостей поширення інформації. Так, у 2018 році американські вчені показали, що фальшива інформація і чутки поширюються в твіттері швидше реальних новин.

COM_SPPAGEBUILDER_NO_ITEMS_FOUND