Vision-Based Localization and LLM-based Navigation for Indoor Environments

2508.08120v1 cs.LG, cs.AI, cs.CV 2025-08-13
Авторы:

Keyan Rahimi, Md. Wasiul Haque, Sagar Dasgupta, Mizanur Rahman

Резюме на русском

## Контекст Индорн avigation, или навигация внутри помещений, остается значимой проблемой в условиях ограничения доступа к сигналам GPS и в условиях сложных архитектурных структур больших помещений. Особенно это актуально для местах, где требуется высокая точность и надежность, вроде госпиталей, аэропортов и учебных залов. Традиционные системы ориентации и навигации часто требуют дорогостоящих компонентов или инфраструктуры, которые могут быть недоступными в ресурсоподвержденных средах. Задача этого исследования — развитие эффективной и ресурсоемкой системы ориентации и навигации внутри помещений, используя доступные технологии. ## Метод Предлагаемая методология сочетает в себе два модуля: визуальное распознавание местоположения (localization) и генерацию направлений (navigation) с помощью больших языковых моделей (LLM). Для распознавания местоположения используется модель ResNet-50, которая была прикреплена к смартфонной камере для снимать изображения в реальном времени. Эта модель была тренирована на данных, имеющихся в ограниченных условиях видимости. Второй модуль — LLM — используется для генерации направлений. Он обрабатывает предобработанные изображения планов помещений и формирует пошаговые инструкции. Эта система обучена на данных с большого объема текста и изображений, чтобы она могла корректно воспринимать информацию о структурах помещений и предоставлять понятные инструкции. ## Результаты Проведенные эксперименты показали высокую точность распознавания местоположения. Система находила позицию пользователя с достоверностью 96%, даже в условиях ограниченной видимости и коротких запросов. Навигационные тесты, основанные на реальных фотограммах помещений, демонстрировали достижение средней точности 75% в инструкциях. Однако были выявлены ограничения, такие как трудности с нулевой разметкой и некоторые трудности в обработке текста в реальном времени. Эти результаты демонстрируют значительный потенциал системы, особенно в ресурсоскрутящих условиях. ## Значимость Этот подход может быть применен в различных областях, таких как здравоохранение, образование и общественный сектор. Он предлагает систему, которая не требует дорогостоящих инфраструктурных компонентов и может быть реализована в различных структурах. Улучшение навигационных систем внутри помещений может привести к более эффективной и доступной ориентации для людей с ограниченными возможностями, а также уменьшить время, потраченное на поиски мест. ## Выводы Результаты экспериментов показали возможность создания эффективной системы на

Abstract

Indoor navigation remains a complex challenge due to the absence of reliable GPS signals and the architectural intricacies of large enclosed environments. This study presents an indoor localization and navigation approach that integrates vision-based localization with large language model (LLM)-based navigation. The localization system utilizes a ResNet-50 convolutional neural network fine-tuned through a two-stage process to identify the user's position using smartphone camera input. To complement localization, the navigation module employs an LLM, guided by a carefully crafted system prompt, to interpret preprocessed floor plan images and generate step-by-step directions. Experimental evaluation was conducted in a realistic office corridor with repetitive features and limited visibility to test localization robustness. The model achieved high confidence and an accuracy of 96% across all tested waypoints, even under constrained viewing conditions and short-duration queries. Navigation tests using ChatGPT on real building floor maps yielded an average instruction accuracy of 75%, with observed limitations in zero-shot reasoning and inference time. This research demonstrates the potential for scalable, infrastructure-free indoor navigation using off-the-shelf cameras and publicly available floor plans, particularly in resource-constrained settings like hospitals, airports, and educational institutions.

Ссылки и действия