Inside Knowledge: Graph-based Path Generation with Explainable Data Augmentation and Curriculum Learning for Visual Indoor Navigation

2508.11446v1 cs.CV, cs.AI 2025-08-19
Авторы:

Daniel Airinei, Elena Burceanu, Marius Leordeanu

Резюме на русском

#### Контекст Проблема визуальной внутренней навигации остается одной из самых сложных в области искусственного зрения. Она связана с ограниченным доступом к GPS, что приводит к необходимости использовать дополнительные источники информации. Несмотря на то, что существуют различные подходы к решению этой задачи, включая глубокое обучение, их развертывание в реальных ситуациях сталкивается с рядом проблем, таких как высокая сложность, нужда в дополнительных сенсорных системах или доступе к картам среды. Мы предлагаем более эффективный и реального времени решение, основанный на визуальном вводе, который может предсказывать направление к цели на основе изображений, съемок мобильного устройства. Наш подход значительно упрощает процесс сбора, аннотации и обучения данных, делая его автоматическим, эффективным и надежным. #### Метод Мы предлагаем использовать графовую модель для генерации путей, которая автоматически создает графы путей из данных, собранных с помощью мобильных устройств. Наш подход включает в себя три основных компонента: 1. **Curriculum Learning**: Мы используем последовательный подход к обучению, начиная с простых задач и плавно переходя к более сложным. 2. **Explainable Data Augmentation**: Мы используем специальные методы для генерации дополнительных данных, которые повышают устойчивость модели и уменьшают вероятность переобучения. 3. **Graph-Based Path Generation**: Мы генерируем граф, где узлы представляют собой различные положения в среде, а ребра представляют пути между ними. Это позволяет нашей модели быстро и эффективно определять направление к цели. #### Результаты Мы проводили эксперименты на нашем собственном датасете, состоящем из видеосъемок в помещении большого торгового центра. На каждом кадре были аннотированы правильные направления к разным целям. Мы сравнили нашу модель с другими подходами и получили значительные улучшения в точности и производительности. Наши результаты показывают, что наш подход представляет собой эффективное решение для визуальной внутренней навигации, которое может быть легко развернуто в различных средах. #### Значимость Наш подход имеет широкие области применения, включая визуальную навигацию в торговых центрах, музеях и других внутренних пространствах. Основные преимущества нашего подхода заключаются в том, что он не требует специальных сенсоров, дополнительных маркеров, карт среды или доступа к интернету. Это делает нашу модель независимой от сложности среды и позволяет развернуть ее в различных условиях. Мы считаем, что наш подход может существенно повысить удобство и эффективность внутренней нави

Abstract

Indoor navigation is a difficult task, as it generally comes with poor GPS access, forcing solutions to rely on other sources of information. While significant progress continues to be made in this area, deployment to production applications is still lacking, given the complexity and additional requirements of current solutions. Here, we introduce an efficient, real-time and easily deployable deep learning approach, based on visual input only, that can predict the direction towards a target from images captured by a mobile device. Our technical approach, based on a novel graph-based path generation method, combined with explainable data augmentation and curriculum learning, includes contributions that make the process of data collection, annotation and training, as automatic as possible, efficient and robust. On the practical side, we introduce a novel largescale dataset, with video footage inside a relatively large shopping mall, in which each frame is annotated with the correct next direction towards different specific target destinations. Different from current methods, ours relies solely on vision, avoiding the need of special sensors, additional markers placed along the path, knowledge of the scene map or internet access. We also created an easy to use application for Android, which we plan to make publicly available. We make all our data and code available along with visual demos on our project site

Ссылки и действия