Vision-Based Localization and LLM-based Navigation for Indoor Environments
2508.08120v1
cs.LG, cs.AI, cs.CV
2025-08-13
Авторы:
Keyan Rahimi, Md. Wasiul Haque, Sagar Dasgupta, Mizanur Rahman
Резюме на русском
## Контекст
Индорн avigation, или навигация внутри помещений, остается значимой проблемой в условиях ограничения доступа к сигналам GPS и в условиях сложных архитектурных структур больших помещений. Особенно это актуально для местах, где требуется высокая точность и надежность, вроде госпиталей, аэропортов и учебных залов. Традиционные системы ориентации и навигации часто требуют дорогостоящих компонентов или инфраструктуры, которые могут быть недоступными в ресурсоподвержденных средах. Задача этого исследования — развитие эффективной и ресурсоемкой системы ориентации и навигации внутри помещений, используя доступные технологии.
## Метод
Предлагаемая методология сочетает в себе два модуля: визуальное распознавание местоположения (localization) и генерацию направлений (navigation) с помощью больших языковых моделей (LLM). Для распознавания местоположения используется модель ResNet-50, которая была прикреплена к смартфонной камере для снимать изображения в реальном времени. Эта модель была тренирована на данных, имеющихся в ограниченных условиях видимости. Второй модуль — LLM — используется для генерации направлений. Он обрабатывает предобработанные изображения планов помещений и формирует пошаговые инструкции. Эта система обучена на данных с большого объема текста и изображений, чтобы она могла корректно воспринимать информацию о структурах помещений и предоставлять понятные инструкции.
## Результаты
Проведенные эксперименты показали высокую точность распознавания местоположения. Система находила позицию пользователя с достоверностью 96%, даже в условиях ограниченной видимости и коротких запросов. Навигационные тесты, основанные на реальных фотограммах помещений, демонстрировали достижение средней точности 75% в инструкциях. Однако были выявлены ограничения, такие как трудности с нулевой разметкой и некоторые трудности в обработке текста в реальном времени. Эти результаты демонстрируют значительный потенциал системы, особенно в ресурсоскрутящих условиях.
## Значимость
Этот подход может быть применен в различных областях, таких как здравоохранение, образование и общественный сектор. Он предлагает систему, которая не требует дорогостоящих инфраструктурных компонентов и может быть реализована в различных структурах. Улучшение навигационных систем внутри помещений может привести к более эффективной и доступной ориентации для людей с ограниченными возможностями, а также уменьшить время, потраченное на поиски мест.
## Выводы
Результаты экспериментов показали возможность создания эффективной системы на
Abstract
Indoor navigation remains a complex challenge due to the absence of reliable
GPS signals and the architectural intricacies of large enclosed environments.
This study presents an indoor localization and navigation approach that
integrates vision-based localization with large language model (LLM)-based
navigation. The localization system utilizes a ResNet-50 convolutional neural
network fine-tuned through a two-stage process to identify the user's position
using smartphone camera input. To complement localization, the navigation
module employs an LLM, guided by a carefully crafted system prompt, to
interpret preprocessed floor plan images and generate step-by-step directions.
Experimental evaluation was conducted in a realistic office corridor with
repetitive features and limited visibility to test localization robustness. The
model achieved high confidence and an accuracy of 96% across all tested
waypoints, even under constrained viewing conditions and short-duration
queries. Navigation tests using ChatGPT on real building floor maps yielded an
average instruction accuracy of 75%, with observed limitations in zero-shot
reasoning and inference time. This research demonstrates the potential for
scalable, infrastructure-free indoor navigation using off-the-shelf cameras and
publicly available floor plans, particularly in resource-constrained settings
like hospitals, airports, and educational institutions.
Ссылки и действия
Дополнительные ресурсы: