Autonomous UAV Flight Navigation in Confined Spaces: A Reinforcement Learning Approach
2508.16807v1
cs.RO, cs.AI, cs.LG, cs.SY, eess.SY
2025-08-27
Авторы:
Marco S. Tayar, Lucas K. de Oliveira, Juliano D. Negri, Thiago H. Segreto, Ricardo V. Godoy, Marcelo Becker
Резюме на русском
## Контекст
Навигация независимых летательных аппаратов (UAV) в узкорамочных промышленных пространствах, таких как вентиляционные шахты, представляет собой опасную и неэффективную задачу для человека. Дроны могут стать эффективным альтернативным решением для такой задачи, однако их эффективность зависит от надежности контрольных политик, предотвращающих столкновения в GPS-отсутствующих средах. Резилюентное машинное обучение (Reinforcement Learning, RL), и преимущественно глубокое RL, стало мощным фреймворком для развития таких контрольных политик. Однако необходимо понять, какие методы RL лучше подходят для этой задачи. Этот жизненно важный контекст побудил исследователей проводить сравнительные исследования, чтобы определить, какой подход дает более надежные и эффективные результаты.
## Метод
Для разработки политик контроля использовались две глубокие RL-методологии: Proximal Policy Optimization (PPO) и Soft Actor-Critic (SAC). PPO является методом на основе опорной политики, а SAC — методом на основе актора-критика, но с использованием офф-политики. Оба метода были тренированы в симуляционной среде Genesis, где производилась генерация процедурных конфигураций труб. Для действий UAV использовалось ограниченное количество управляющих сигналов, и для награды была разработана система, которая вознаграждала надёжное достижение точек прохода и накладывала значительную штрафную наказку за столкновения. Это строительство модели и выбор методов позволили сравнить их на уровне их способности применяться к задаче сложной гнавигации в узких пространствах.
## Результаты
Исследователи провели многократные эксперименты, проанализировав их результаты в терминах успешности полётов и надёжности политик. PPO оказался лучше в плане стабильности обучения и способности создавать гладкие и безопасные полёты. Контрольные политики, созданные с помощью PPO, смогли полностью пройти все оценочные эпизоды без столкновений и выдавали высококачественные результаты. В то же время, SAC, несмотря на его выгоду в обучении с офф-политикой, не смог достичь таковой устойчивости и постоянно терпел неудачу в последних стадиях прохода. Таким образом, PPO показал лучшую надёжность в условиях высокой опасности и сложности, что делает его более привлекательным для применения в навигационных задачах.
## Значимость
Результаты работы имеют значительное значение для применения в промышленных ситуациях, таких как проверка изоляции вентиляционных систем, мониторинг заводов и других узких пространств. Метод PPO предлагает более надежную альтернативу для развития автономных систем контроля в таких пространствах. Б
Abstract
Inspecting confined industrial infrastructure, such as ventilation shafts, is
a hazardous and inefficient task for humans. Unmanned Aerial Vehicles (UAVs)
offer a promising alternative, but GPS-denied environments require robust
control policies to prevent collisions. Deep Reinforcement Learning (DRL) has
emerged as a powerful framework for developing such policies, and this paper
provides a comparative study of two leading DRL algorithms for this task: the
on-policy Proximal Policy Optimization (PPO) and the off-policy Soft
Actor-Critic (SAC). The training was conducted with procedurally generated duct
environments in Genesis simulation environment. A reward function was designed
to guide a drone through a series of waypoints while applying a significant
penalty for collisions. PPO learned a stable policy that completed all
evaluation episodes without collision, producing smooth trajectories. By
contrast, SAC consistently converged to a suboptimal behavior that traversed
only the initial segments before failure. These results suggest that, in
hazard-dense navigation, the training stability of on-policy methods can
outweigh the nominal sample efficiency of off-policy algorithms. More broadly,
the study provides evidence that procedurally generated, high-fidelity
simulations are effective testbeds for developing and benchmarking robust
navigation policies.