Англійська мова вмістилася в півтора мегабайти

Американські психологи підрахували обсяг інформації, який до 18 років вивчає англомовна людина про свою рідну мову. За їх підрахунками, максимальний обсяг таких даних становить близько 12,5 мільйона біт: всю інформацію про мову, таким чином, майже цілком можна вмістити на стандартній трьохдюймовій дискеті. При цьому більша частина зберіганої інформації присвячена лексичній семантиці. Стаття опублікована в журналі.


Найпростіший спосіб запису і зберігання інформації - двійковий код: у такому вигляді інформація зберігається на цифрових носіях, а також у вигляді набору нуль і одиниць можна представити і ту інформацію про навколишній світ, яку людина отримує і зберігає у себе в голові. При цьому пристрій двійкового коду не дає компактно зберігати всю інформацію про об'єкт. Уявімо, наприклад, чорничний пиріг. Всю інформацію про чорничний пиріг - те, як він виглядає, який він на смак, як називається ягода, яка входить до його складу, якого вона кольору і так далі - уявити у вигляді одного біта неможливо. Замість цього її доводиться зберігати у вигляді своєрідних відповідей на різні питання. Наприклад, що стосується того ж пирога, відповідь на питання «Це пиріг?» буде «Так», на питання «Він абрикосовий?» відповіддю буде «Ні», тому цей кластер інформації про пиріг може виглядати як 1 0, тобто займати два біти.


Зрозуміло, у світі є й інші об'єкти крім пирогів, і за різними підрахунками людська пам'ять здатна зберігати від 109 до 1020 біт інформації, а на кожен об'єкт припадає від 10 до 14 битів. У новій роботі Френсіс Молліка (Francis Mollica) з Рочестерського університету і Стівен П'янтадосі (Steven Piantadosi) з Каліфорнійського інституту в Берклі вирішили підрахувати, який обсяг займає мовна інформація, яку отримує людина з народження до настання повноліття. Вчені зосередилися на англомовних людях, а інформацію про мову розбили на кілька категорій: фонеми, словоформи, лексична семантика, частотність слів і синтаксис.

Для розрахунку обсягу інформації в кожній категорії вчені скористалися теорією скорочення інформаційної ентропії, відповідно до якої для кожної репрезентації R є деяка кількість невизначеності H. Тобто будь-який об'єкт, який можна пізнати, спочатку представляється у вигляді невизначеності H (R). При цьому є деяка інформація D: вона належить до R і може скоротити інформаційну ентропію. Далі інформацію про якийсь об'єкт можна перевести в біти за допомогою різниці в невизначеності до навчання H (R) і невизначеності після навчання H (R'D).

Як три основні параметри отримання інформації про фонеми вчені прийняли час початку озвончення в мілісекундах (кількісний параметр, який, наприклад, допомагає розмежувати [п] і [б]), частота фрикації в барках (артикуляційні особливості, що допомагають розмежувати фрикативні згодні, наприклад, відрізнити [с] і [з]) і частоти формант гласних звуків у мелах. На основі відомих меж тривалості озвінчення і сприйманих людиною частот, вчені з'ясували, що час для початку озвончення дзвінких і глухих (для глухих - негативне число, оскільки озвінчення немає) згодних потрібно 5 і 3 біта відповідно, для частоти фрикації - 3 біта, а для визначення частоти формант гласних - 15 біт. Враховуючи кількість фонем в англійській мові (50) і в залежності від того, скільки біт інформації кожна з них вимагає, всю фонетичну систему мови можна, за оцінками вчених, вмістити в 375-1500 бітах.

Друга категорія - словоформи - в розумінні вчених містить тільки оболонку слова, тобто набір фонем, які потрібні, щоб це слово вимовити або розпізнати при прослуховуванні. Вони обмежили середній обсяг лексикону дорослої англомовної людини 40 тисячею слів. Скориставшись базою лінгвістичних даних CELEX, вчені з'ясували середню кількість фонів (фонетичних одиниць мовлення) для кожного слова, а потім розрахували на основі цього, скільки битів необхідно для одного слова. Вийшло, по різних моделях, 5, 10 і 16, що відповідає обсягу від 200 до 640 тисяч біт для зберігання словоформ.

Для того, щоб розрахувати обсяг інформації, що відноситься до лексичної семантики слів, вчені представили всі значення всіх слів у багатовимірному векторному просторі R. У ньому є певне слово - наприклад, слово «яблуко», - яке потрапляє не тільки в простір R, але і в простір r трохи поменше. При цьому R містить r, але невідомо, де саме цей r знаходиться. І хоча R містить інформацію про фрукти, овочі, корови, глобальне потепління і всі інші об'єкти, потрібен саме простір r - тому що в ньому міститься тільки релевантна інформація: для скорочення інформаційної ентропії, тому, необхідно скоротити R до r.

Щоб це оцінити, вчені проаналізували векторне уявлення 10 тисяч існуючих у WordNet. В якості r для кожного слова взяли відстань до найближчих точок в просторі, а в якості R - відстань до самих далеких. За розрахунками вчених, процес скорочення R до r, тобто знаходження того самого меншого простору для кожного слова може займати до 2 біт. При цьому семантичний простір не одномірний, а багатовимірний, і кількість вимірювань у ньому, за різними оцінками, варіюється від 100 до 500. Обсяг інформації про лексичну семантику, таким чином, за підрахунками вчених займає від 500 тисяч до 40 мільйонів біт, враховуючи лексикон в 40 тисяч слів.


Для оцінки обсягу пам'яті, необхідного для зберігання інформації про частотність слів, вчені скористалися допомогою 251 добровольця, кожного з яких попросили порівняти два слова за частотністю: тобто вирішити, яке з них у промові зустрічається найчастіше. Вони з'ясували, що точність учасників становить близько 76,6 відсотка - тобто десь у трьох випадках з чотирьох вони правильно вгадували, наскільки слово частотне. Змоделювавши точність учасників при виконанні завдання у вигляді того, скільки частот всього вони можуть визначити (оцінивши відсутні 23,4 відсотка як ймовірність того, що два слова потраплять в одну категорію), вони з'ясували, що люди приблизно розподіляють частотність за чотирма категоріями. Для визначення частоти слова, таким чином, необхідно десь від 1 до 3 біт інформації: тобто для всіх слів - від 40 до 120 тисяч біт.

Нарешті, для синтаксису вчені вирішили підрахувати кількість пропозицій з унікальною синтаксичною структурою поза контекстом і необхідний обсяг пам'яті, який дозволяє відрізнити одну структуру від іншої. У вчених вийшло 134, 697 і 1394 біти залежно від того, скільки унікальних синтаксичних конструкцій може розпізнати людина.

Автори, таким чином, підрахували, що вся інформація, яку англомовна людина отримує про свою мову з раннього дитинства до 18 років, можна помістити в досить невеликому обсязі пам'яті: від 794 тисяч до 40 мільйонів біт. При цьому середній показник (best guess за всіма категоріями) дорівнює 12,48 мільйона біт або близько 1,5 мегабайта. При цьому вчені уточнюють, що їх розрахунки дуже грубі і приблизні, і швидше годяться для будь-якого теоретичного обґрунтування, а не для застосування в інформаційних технологіях. Наприклад, їх розрахунки показали, що найбільш витратним за займаним обсягом пам'яті є лексична семантика, а ось синтаксис, навпаки, місця займає дуже мало.

До речі про носіїв інформації: у січні була представлена перша серійна SD-карта, на яку можна помістити терабайт даних. Спеціально до цієї події ми підготували матеріал «Терабайт - це багато чи мало?» про те, як змінювалися з часом цифрові носії.

COM_SPPAGEBUILDER_NO_ITEMS_FOUND