NaviSense: A Multimodal Assistive Mobile application for Object Retrieval by Persons with Visual Impairment
2509.18672v1
cs.HC, cs.AI
2025-09-25
Авторы:
Ajay Narayanan Sridhar, Fuli Qiao, Nelson Daniel Troncoso Aldas, Yanpei Shi, Mehrdad Mahdavi, Laurent Itti, Vijaykrishnan Narayanan
Резюме на русском
## Контекст
Люди с ограниченным зрением часто сталкиваются с трудностями при различных активностях, в том числе в поиске и возврате объектов в своей окружающей среде. Эта проблема может существенно сказаться на их самостоятельности и качестве жизни. Имеющиеся технологии помощи, такие как системы навигации и распознавания объектов, либо требуют предварительной настройки, либо ограничены в распознавании только фиксированного набора объектов. Такие ограничения приводят к несоответствию между многоугольными потребностями пользователей и возможностями технологий. Эти факторы подчеркивают необходимость развития более гибких и доступных систем, которые могут обеспечить полноценное взаимодействие с окружающим миром.
## Метод
'NaviSense' — это мобильное приложение, которое использует комбинацию технологий, включая конверсационный ИИ, модели языка и изображений, технологии виртуальной реальности и LiDAR. Оно позволяет пользователям указывать нужные объекты с помощью простого естественного языка и получать реального времени аудио-гидровое руководство к месту их нахождения. Основная идея заключается в сделать технологию прозрачной и не требующей предварительной настройки, чтобы люди с ограниченным зрением могли свободно взаимодействовать с окружающим миром. Технический подход включает в себя стабильный механизм распознавания объектов, агрегацию данных из разных источников, а также гибкую систему звуковой и гидровой обратной связи.
## Результаты
Используя данные, собранные во время формативного исследования, были проведены эксперименты с участием 12 человек, имеющих разные степени ограниченного зрения. Результаты показали, что 'NaviSense' существенно сократил время решения задач поиска объектов и был выбран как более эффективный инструмент по сравнению с существующими системами. Особое внимание было уделено измерению того, насколько гибко и просто можно использовать приложение в реальных условиях. Эксперименты также подтвердили высокую точность распознавания и удобство в использовании звуковой и гидровой обратной связи.
## Значимость
Потенциал 'NaviSense' лежит в его уникальной способности объединить прогностическую мощь моделей языка и изображений с виртуальной реальностью и LiDAR. Это открывает новые возможности для помощи людям с ограниченным зрением в свободном взаимодействии с любыми объектами в окружающей среде. Кроме того, приложение может быть применено в различных областях, включая социальную помощь, улучшение качества жизни и технологии поддержки в ра
Abstract
People with visual impairments often face significant challenges in locating
and retrieving objects in their surroundings. Existing assistive technologies
present a trade-off: systems that offer precise guidance typically require
pre-scanning or support only fixed object categories, while those with
open-world object recognition lack spatial feedback for reaching the object. To
address this gap, we introduce 'NaviSense', a mobile assistive system that
combines conversational AI, vision-language models, augmented reality (AR), and
LiDAR to support open-world object detection with real-time audio-haptic
guidance. Users specify objects via natural language and receive continuous
spatial feedback to navigate toward the target without needing prior setup.
Designed with insights from a formative study and evaluated with 12 blind and
low-vision participants, NaviSense significantly reduced object retrieval time
and was preferred over existing tools, demonstrating the value of integrating
open-world perception with precise, accessible guidance.
Ссылки и действия
Дополнительные ресурсы: