Autonomous UAV Flight Navigation in Confined Spaces: A Reinforcement Learning Approach

2508.16807v1 cs.RO, cs.AI, cs.LG, cs.SY, eess.SY 2025-08-27
Авторы:

Marco S. Tayar, Lucas K. de Oliveira, Juliano D. Negri, Thiago H. Segreto, Ricardo V. Godoy, Marcelo Becker

Резюме на русском

## Контекст Навигация независимых летательных аппаратов (UAV) в узкорамочных промышленных пространствах, таких как вентиляционные шахты, представляет собой опасную и неэффективную задачу для человека. Дроны могут стать эффективным альтернативным решением для такой задачи, однако их эффективность зависит от надежности контрольных политик, предотвращающих столкновения в GPS-отсутствующих средах. Резилюентное машинное обучение (Reinforcement Learning, RL), и преимущественно глубокое RL, стало мощным фреймворком для развития таких контрольных политик. Однако необходимо понять, какие методы RL лучше подходят для этой задачи. Этот жизненно важный контекст побудил исследователей проводить сравнительные исследования, чтобы определить, какой подход дает более надежные и эффективные результаты. ## Метод Для разработки политик контроля использовались две глубокие RL-методологии: Proximal Policy Optimization (PPO) и Soft Actor-Critic (SAC). PPO является методом на основе опорной политики, а SAC — методом на основе актора-критика, но с использованием офф-политики. Оба метода были тренированы в симуляционной среде Genesis, где производилась генерация процедурных конфигураций труб. Для действий UAV использовалось ограниченное количество управляющих сигналов, и для награды была разработана система, которая вознаграждала надёжное достижение точек прохода и накладывала значительную штрафную наказку за столкновения. Это строительство модели и выбор методов позволили сравнить их на уровне их способности применяться к задаче сложной гнавигации в узких пространствах. ## Результаты Исследователи провели многократные эксперименты, проанализировав их результаты в терминах успешности полётов и надёжности политик. PPO оказался лучше в плане стабильности обучения и способности создавать гладкие и безопасные полёты. Контрольные политики, созданные с помощью PPO, смогли полностью пройти все оценочные эпизоды без столкновений и выдавали высококачественные результаты. В то же время, SAC, несмотря на его выгоду в обучении с офф-политикой, не смог достичь таковой устойчивости и постоянно терпел неудачу в последних стадиях прохода. Таким образом, PPO показал лучшую надёжность в условиях высокой опасности и сложности, что делает его более привлекательным для применения в навигационных задачах. ## Значимость Результаты работы имеют значительное значение для применения в промышленных ситуациях, таких как проверка изоляции вентиляционных систем, мониторинг заводов и других узких пространств. Метод PPO предлагает более надежную альтернативу для развития автономных систем контроля в таких пространствах. Б

Abstract

Inspecting confined industrial infrastructure, such as ventilation shafts, is a hazardous and inefficient task for humans. Unmanned Aerial Vehicles (UAVs) offer a promising alternative, but GPS-denied environments require robust control policies to prevent collisions. Deep Reinforcement Learning (DRL) has emerged as a powerful framework for developing such policies, and this paper provides a comparative study of two leading DRL algorithms for this task: the on-policy Proximal Policy Optimization (PPO) and the off-policy Soft Actor-Critic (SAC). The training was conducted with procedurally generated duct environments in Genesis simulation environment. A reward function was designed to guide a drone through a series of waypoints while applying a significant penalty for collisions. PPO learned a stable policy that completed all evaluation episodes without collision, producing smooth trajectories. By contrast, SAC consistently converged to a suboptimal behavior that traversed only the initial segments before failure. These results suggest that, in hazard-dense navigation, the training stability of on-policy methods can outweigh the nominal sample efficiency of off-policy algorithms. More broadly, the study provides evidence that procedurally generated, high-fidelity simulations are effective testbeds for developing and benchmarking robust navigation policies.

Ссылки и действия