Autonomous Navigation of Cloud-Controlled Quadcopters in Confined Spaces Using Multi-Modal Perception and LLM-Driven High Semantic Reasoning

2508.07885v1 cs.RO, cs.AI, cs.CV, cs.SY, eess.SY 2025-08-13
Авторы:

Shoaib Ahmmad, Zubayer Ahmed Aditto, Md Mehrab Hossain, Noushin Yeasmin, Shorower Hossain

Резюме на русском

#### Контекст Автоматизированная навигация внештатных дронов в закрытых пространствах представляет собой важную область исследований, особенно в условиях отсутствия GPS. Такие ситуации часто встречаются в защищенных зонах, промышленных помещениях и зданиях. Существующие решения часто сталкиваются с ограничениями по скорости обработки данных, точности восприятия окружения и убыточностью надёжности. Эти проблемы могут привести к негативным последствиям, таким как коллизии, неточности в маршрутизации и нехватка своевременных реакций. Это поощряет развитие систем, обеспечивающих высокую точность, быструю реакцию и уменьшение зависимости от навигационных систем, недоступных в закрытых пространствах. #### Метод Предложенная система основывается на сложном подходе, объединяющем несколько технологий для эффективного восприятия окружения и принятия решений. Основной архитектурой является мультимодальное восприятие, включающее в себя глубокое обучение для детектирования объектов с использованием YOLOv11, оценку диапазона и глубины с помощью Depth Anything V2, а также информацию об ориентации и движении, полученной через PCB с Time-of-Flight (ToF) сенсорами и IMU. Для обеспечения высокой надёжности и минимальной задержки в действиях используется многопоточная архитектура. Для повышения безопасности во время навигации в ограниченных пространствах, встроена виртуальная безопасная рамка, которая дополняется вычислительными моделями с помощью 3D bounding box estimation и Kalman filtering. Интеграция с облачными вычислениями позволяет выполнять тяжёлые вычисления на удалённых серверах, что повышает эффективность и повышает масштабируемость. #### Результаты Проведенные эксперименты в закрытом лабораторном условии показали высокую эффективность системы. Она достигла среднего значения значимости YOLOv11 для объектного распознавания (mAP50) в 0.6. Оценка диапазона (Depth Anything V2) показала ошибку средней абсолютной величины (MAE) в 7.2 см. В течение 42 циклов навигации, продолжительностью около 11 минут, произошло лишь 16 безобидных нарушений виртуальной безопасной рамки. Это свидетельствует о высокой надёжности системы. Замеры завершаются низкой задержкой обработки всей системы — менее 1 секунды с момента возникновения входных данных до принятия решения, что является ключевым фактором для успешной навигации в ограниченных пространствах. #### Значимость Система предлагает уникальные возможности для применения в различных областях, таких как промышленность, мониторинг инфраструктуры, поисковые операции и транспортная экспедици

Abstract

This paper introduces an advanced AI-driven perception system for autonomous quadcopter navigation in GPS-denied indoor environments. The proposed framework leverages cloud computing to offload computationally intensive tasks and incorporates a custom-designed printed circuit board (PCB) for efficient sensor data acquisition, enabling robust navigation in confined spaces. The system integrates YOLOv11 for object detection, Depth Anything V2 for monocular depth estimation, a PCB equipped with Time-of-Flight (ToF) sensors and an Inertial Measurement Unit (IMU), and a cloud-based Large Language Model (LLM) for context-aware decision-making. A virtual safety envelope, enforced by calibrated sensor offsets, ensures collision avoidance, while a multithreaded architecture achieves low-latency processing. Enhanced spatial awareness is facilitated by 3D bounding box estimation with Kalman filtering. Experimental results in an indoor testbed demonstrate strong performance, with object detection achieving a mean Average Precision (mAP50) of 0.6, depth estimation Mean Absolute Error (MAE) of 7.2 cm, only 16 safety envelope breaches across 42 trials over approximately 11 minutes, and end-to-end system latency below 1 second. This cloud-supported, high-intelligence framework serves as an auxiliary perception and navigation system, complementing state-of-the-art drone autonomy for GPS-denied confined spaces.

Ссылки и действия

Связанные статьи

Leave No Observation Behind: Real-time Correction for VLA Action Chunks

#### Контекст В многих приложениях, таких как робототехника, автоматизированные системы и искусственный интеллект, важно...

2025-10-01