Смартфон визначив об'єкти, що цікавлять користувача за поглядом

Американські інженери створили алгоритм, що дозволяє смартфонам розуміти, на що зараз дивиться користувач, і тим самим більш точно інтерпретувати його голосові команди. Він зіставляє дані з передньої і задньої камер, і тим самим обчислює точку, на яку дивиться людина. Це дозволяє використовувати в спілкуванні з голосовим помічником знеособлені команди, наприклад, «У скільки закривається цей магазин?». Стаття з описом алгоритму буде представлена на конференції CHI 2020.


Голосові помічники досить сильно розвинулися за останні роки, але у них досі залишається кілька фундаментальних проблем, в тому числі і слабка робота з контекстом. Наприклад, часто вони не розуміють зв'язку нової команди з попереднім діалогом з користувачем, а також нездатні працювати з вказівними займенниками. Однак у повсякденному спілкуванні люди постійно використовують таку форму вказівки, тому вона могла б зробити голосові помічники більш схожими на людей.


Щоб смартфон міг розуміти, про що саме говорить користувач в такому випадку, йому необхідно використовувати дані від камери. Найочевидніший спосіб реалізації такого алгоритму - просто наводити камеру на цікавий предмет, щоб він знаходився в центрі кадру. Але це робить використання смартфона неприродним, тому розробники під керівництвом Кріса Харрісона (Chris Harrison) з Університету Карнегі - Меллона запропонували одночасно використовувати камери з обох сторін смартфона, щоб визначати напрямок погляду людини, не змушуючи його точно направляти смартфон.

Автори скористалися iPhone з iOS 13, тому що починаючи з цієї версії система дозволяє одночасно використовувати дві камери. Для розпізнавання напрямку розробники скористалися системним API для відстеження положення голови. На його основі програма отримує вектор з напрямком голови і, знаючи параметри обох камер, переносить його на дані з задньої камери.

Об'єкти на цих даних розпізнає вбудований в iOS фреймворк. Головне обмеження полягає в тому, що він працює тільки зі знайомими об'єктами, проте розробники припускають, що це можна вирішити за допомогою єдиної хмарної бази даних. Алгоритм зіставляє вектор з розпізнаними об'єктами перед камерою і ранжує їх по дальності від нього.

Програма слухає користувача в пошуках активаційної фрази, розпізнаваючи слова за допомогою вбудованого в систему алгоритму диктування. Після того, як користувач сказав активаційну фразу і команду, програма зіставляє вказівні займенники в команді з об'єктами і формує остаточну команду, в якій займенники замінені на конкретні об'єкти. Оскільки додаток є демонстрацією методу, він сам обробляє команду і зачитує відповідь, але при бажанні команду можна віддавати на обробку системному голосовому помічнику або навіть вбудувати в систему.

Один з трьох авторів статті працює в компанії Apple, яка нещодавно подала патентну заявку на схожий метод, що дозволяє уточнювати команди з вказівними займенниками за допомогою погляду. У заявці описано різні реалізації такої системи, в тому числі з розумною колонкою з вбудованою камерою, а також смартфоном, що стоїть у кімнаті.

COM_SPPAGEBUILDER_NO_ITEMS_FOUND