Рухи рук у відеодзвінку допомогли підглянути текст

Навчання 28 грудня 2023

Руху рук під час відеодзвінку може допомогти зловмисникам розпізнати слова і паролі, які співрозмовник друкує на клавіатурі, розповідають американські розробники в статті, опублікованій на arXiv.org. Вони створили алгоритм, який аналізує рухи контурів прапорів і рук і відновлює за ними список слів-кандидатів, який значно спрощує завдання зловмисника.

Найчастіше зловмисники намагаються роздобути конфіденційну інформацію цифровим способом - тобто використовуючи шкідливі програми і вразливості в програмному забезпеченні. Але є й альтернативний підхід, званий атаками сторонніми каналами. У ньому зловмисники використовують не вразливості алгоритмів, а технічні особливості реалізації комп'ютера і підключених пристроїв. Яскравий приклад - це «підслуховування» звуків набору тексту на клавіатурі, яке дозволяє відновлювати текст, оскільки натискання кожної клавіші трохи відрізняється від натискання інших за звуком. Брак цього методу, як і майже всіх атак сторонніми каналами, полягає в тому, що для його втілення в життя необхідний фізичний доступ до комп'ютера жертви.

Потенційно цей метод можна було б застосувати для відеодзвінків. Але багато людей відключають звук в моменти, коли вони не говорять, тому що у них на тлі може бути шум. Крім того, останнім часом розробники додатків для відеодзвінків почали впроваджувати в них фільтрування шуму, яке може відсікти і звуки натискання клавіш. Розробники під керівництвом Муртузи Джадлівала (Murtuza Jadliwala) з Техаського університету в Сан-Антоніо припустили, що введення тексту можна не підслуховувати, а підглядати під час відеодзвінків.

Вони розробили алгоритм, який влаштований наступним чином. Спочатку він видаляє на зображенні співрозмовника фон навколо тіла і переводить зображення в відтінки сірого. Потім алгоритм розмічає на зображенні обличчя. Саме по собі розташування обличчя в кадрі йому не потрібно, але воно допомагає визначити розташування рук, яке відбувається на наступному етапі. Після того як руки виділені, алгоритм залишає лише їх контур і ділить на дві частини: область біля плечового суглоба і інша частина руки.

Отримавши кадри з виділеними руками, алгоритм розраховує для них вектора зміщення контурів (між двома сусідніми кадрами) і за ними розраховує ймовірність слів зі словника. Для поліпшення результатів він враховує швидкість друку, те, які руки і в якому порядку використовувалися під час набору, куди вони рухалися і скільки букв було в слові.

Маючи вказаний словник з найбільш часто зустрічаються слів або паролів алгоритм видає найімовірніші з них. Автори перевірили роботи алгоритму на різних веб-камерах і додатках і отримали різні результати. Наприклад, при словнику в 65 тисяч найпопулярніших слів і видачі 50 найімовірніших слів алгоритмом точність передбачення по відео з Skype виявилася на 3,4 відсотка вище, ніж в Zoom, і на 8 вище, ніж в Hangouts. В цілому, результати виявилися не дуже точними. При використанні словника в чотири тисячі найпопулярніших слів 75 відсотків введених на клавіатурі слів виявлялися в списку з 200 слів, яким алгоритм присвоїв найбільшу ймовірність.

Раніше американські інженери навчилися обчислювати пін-код банківської карти, аналізуючи свідчення акселерометра і гіроскопа під час введення.