NaviSense: A Multimodal Assistive Mobile application for Object Retrieval by Persons with Visual Impairment

2509.18672v1 cs.HC, cs.AI 2025-09-25
Авторы:

Ajay Narayanan Sridhar, Fuli Qiao, Nelson Daniel Troncoso Aldas, Yanpei Shi, Mehrdad Mahdavi, Laurent Itti, Vijaykrishnan Narayanan

Резюме на русском

## Контекст Люди с ограниченным зрением часто сталкиваются с трудностями при различных активностях, в том числе в поиске и возврате объектов в своей окружающей среде. Эта проблема может существенно сказаться на их самостоятельности и качестве жизни. Имеющиеся технологии помощи, такие как системы навигации и распознавания объектов, либо требуют предварительной настройки, либо ограничены в распознавании только фиксированного набора объектов. Такие ограничения приводят к несоответствию между многоугольными потребностями пользователей и возможностями технологий. Эти факторы подчеркивают необходимость развития более гибких и доступных систем, которые могут обеспечить полноценное взаимодействие с окружающим миром. ## Метод 'NaviSense' — это мобильное приложение, которое использует комбинацию технологий, включая конверсационный ИИ, модели языка и изображений, технологии виртуальной реальности и LiDAR. Оно позволяет пользователям указывать нужные объекты с помощью простого естественного языка и получать реального времени аудио-гидровое руководство к месту их нахождения. Основная идея заключается в сделать технологию прозрачной и не требующей предварительной настройки, чтобы люди с ограниченным зрением могли свободно взаимодействовать с окружающим миром. Технический подход включает в себя стабильный механизм распознавания объектов, агрегацию данных из разных источников, а также гибкую систему звуковой и гидровой обратной связи. ## Результаты Используя данные, собранные во время формативного исследования, были проведены эксперименты с участием 12 человек, имеющих разные степени ограниченного зрения. Результаты показали, что 'NaviSense' существенно сократил время решения задач поиска объектов и был выбран как более эффективный инструмент по сравнению с существующими системами. Особое внимание было уделено измерению того, насколько гибко и просто можно использовать приложение в реальных условиях. Эксперименты также подтвердили высокую точность распознавания и удобство в использовании звуковой и гидровой обратной связи. ## Значимость Потенциал 'NaviSense' лежит в его уникальной способности объединить прогностическую мощь моделей языка и изображений с виртуальной реальностью и LiDAR. Это открывает новые возможности для помощи людям с ограниченным зрением в свободном взаимодействии с любыми объектами в окружающей среде. Кроме того, приложение может быть применено в различных областях, включая социальную помощь, улучшение качества жизни и технологии поддержки в ра

Abstract

People with visual impairments often face significant challenges in locating and retrieving objects in their surroundings. Existing assistive technologies present a trade-off: systems that offer precise guidance typically require pre-scanning or support only fixed object categories, while those with open-world object recognition lack spatial feedback for reaching the object. To address this gap, we introduce 'NaviSense', a mobile assistive system that combines conversational AI, vision-language models, augmented reality (AR), and LiDAR to support open-world object detection with real-time audio-haptic guidance. Users specify objects via natural language and receive continuous spatial feedback to navigate toward the target without needing prior setup. Designed with insights from a formative study and evaluated with 12 blind and low-vision participants, NaviSense significantly reduced object retrieval time and was preferred over existing tools, demonstrating the value of integrating open-world perception with precise, accessible guidance.

Ссылки и действия