Autonomous Navigation of Cloud-Controlled Quadcopters in Confined Spaces Using Multi-Modal Perception and LLM-Driven High Semantic Reasoning
2508.07885v1
cs.RO, cs.AI, cs.CV, cs.SY, eess.SY
2025-08-13
Авторы:
Shoaib Ahmmad, Zubayer Ahmed Aditto, Md Mehrab Hossain, Noushin Yeasmin, Shorower Hossain
Резюме на русском
#### Контекст
Автоматизированная навигация внештатных дронов в закрытых пространствах представляет собой важную область исследований, особенно в условиях отсутствия GPS. Такие ситуации часто встречаются в защищенных зонах, промышленных помещениях и зданиях. Существующие решения часто сталкиваются с ограничениями по скорости обработки данных, точности восприятия окружения и убыточностью надёжности. Эти проблемы могут привести к негативным последствиям, таким как коллизии, неточности в маршрутизации и нехватка своевременных реакций. Это поощряет развитие систем, обеспечивающих высокую точность, быструю реакцию и уменьшение зависимости от навигационных систем, недоступных в закрытых пространствах.
#### Метод
Предложенная система основывается на сложном подходе, объединяющем несколько технологий для эффективного восприятия окружения и принятия решений. Основной архитектурой является мультимодальное восприятие, включающее в себя глубокое обучение для детектирования объектов с использованием YOLOv11, оценку диапазона и глубины с помощью Depth Anything V2, а также информацию об ориентации и движении, полученной через PCB с Time-of-Flight (ToF) сенсорами и IMU. Для обеспечения высокой надёжности и минимальной задержки в действиях используется многопоточная архитектура. Для повышения безопасности во время навигации в ограниченных пространствах, встроена виртуальная безопасная рамка, которая дополняется вычислительными моделями с помощью 3D bounding box estimation и Kalman filtering. Интеграция с облачными вычислениями позволяет выполнять тяжёлые вычисления на удалённых серверах, что повышает эффективность и повышает масштабируемость.
#### Результаты
Проведенные эксперименты в закрытом лабораторном условии показали высокую эффективность системы. Она достигла среднего значения значимости YOLOv11 для объектного распознавания (mAP50) в 0.6. Оценка диапазона (Depth Anything V2) показала ошибку средней абсолютной величины (MAE) в 7.2 см. В течение 42 циклов навигации, продолжительностью около 11 минут, произошло лишь 16 безобидных нарушений виртуальной безопасной рамки. Это свидетельствует о высокой надёжности системы. Замеры завершаются низкой задержкой обработки всей системы — менее 1 секунды с момента возникновения входных данных до принятия решения, что является ключевым фактором для успешной навигации в ограниченных пространствах.
#### Значимость
Система предлагает уникальные возможности для применения в различных областях, таких как промышленность, мониторинг инфраструктуры, поисковые операции и транспортная экспедици
Abstract
This paper introduces an advanced AI-driven perception system for autonomous
quadcopter navigation in GPS-denied indoor environments. The proposed framework
leverages cloud computing to offload computationally intensive tasks and
incorporates a custom-designed printed circuit board (PCB) for efficient sensor
data acquisition, enabling robust navigation in confined spaces. The system
integrates YOLOv11 for object detection, Depth Anything V2 for monocular depth
estimation, a PCB equipped with Time-of-Flight (ToF) sensors and an Inertial
Measurement Unit (IMU), and a cloud-based Large Language Model (LLM) for
context-aware decision-making. A virtual safety envelope, enforced by
calibrated sensor offsets, ensures collision avoidance, while a multithreaded
architecture achieves low-latency processing. Enhanced spatial awareness is
facilitated by 3D bounding box estimation with Kalman filtering. Experimental
results in an indoor testbed demonstrate strong performance, with object
detection achieving a mean Average Precision (mAP50) of 0.6, depth estimation
Mean Absolute Error (MAE) of 7.2 cm, only 16 safety envelope breaches across 42
trials over approximately 11 minutes, and end-to-end system latency below 1
second. This cloud-supported, high-intelligence framework serves as an
auxiliary perception and navigation system, complementing state-of-the-art
drone autonomy for GPS-denied confined spaces.