Vision-driven River Following of UAV via Safe Reinforcement Learning using Semantic Dynamics Model
2508.09971v1
cs.RO, cs.AI
2025-08-15
Авторы:
Zihan Wang, Nina Mahmoudian
Резюме на русском
## Контекст
В настоящее время автоматизированные системы управления летательными аппаратами (УАВ) игрушкают ключевую роль в приложениях, таких как поиск-и-спасение, наблюдение за окружающим пространством и мониторинг окружающей среды. Однако эти задачи часто возникают в сложных географических условиях, таких как леса, реки или сельские зоны, где глобальные системы навигации через спутники (GNSS), такие как GPS, оказываются недоступными или недостоверными. Для решения этой проблемы важно развивать методы, позволяющие УАВ автономно выполнять сложные задачи в условиях недоступности GNSS. Одной из таких задач является автоматическое следование за рекой, которое требует высокой точности и надёжности, особенно в условиях быстрого изменения ландшафта и ограниченности видимости.
## Метод
Мы применяем подход, основанный на усовершенствованных моделях управления и обучения с подкреплением, для точного автономного следования за рекой УАВ. Алгоритм основывается на методе покрытия, используя субмодулярную формулу награды, чтобы оптимизировать покрытие уникальных участков реки. Для повышения точности и эффективности учитывается не только визуальный ввод, но также и семантические динамики, основанные на распознавании объектов. Мы предлагаем **Marginal Gain Advantage Estimation (MGAE)**, оптимизирующий преимущество действий на основе исторических данных, и **Semantic Dynamics Model (SDM)**, использующий патчные маски семантических объектов для короткосрочного прогнозирования следующих наблюдений. Также мы представляем **Constrained Actor Dynamics Estimator (CADE)**, архитектуру, которая объединяет модель награды, эстиматор затрат и модель динамики для создания безопасного агента, способного решать задачи в условиях неопределенности.
## Результаты
В ходе экспериментов мы визуализировали поведение агента в ситуациях, при которых УАВ должен выполнять следование за рекой в условиях разных уровней сложности. Использовались данные из симуляционного окружения, включающего переменные условия освещения, разнообразные виды рек и внезапные препятствия. Мы эволюционно сравнили нашу модель с традиционными методами, такими как Generalized Advantage Estimation (GAE). Результаты показали, что **MGAE** работает эффективнее, достигая быстрого конвергенции и выдавая более высокую точность. **SDM** в свою очередь, обеспечивает более точные короткосрочные прогнозы, обеспечивая точность затрат и снижая риск нарушений правил. В целом, **CADE** показал себя как эффективный подход в области безопасного обучения с подкреплением, комбинируя модели безопасности и награды.
## Значимость
Наши результаты имеют
Abstract
Vision-driven autonomous river following by Unmanned Aerial Vehicles is
critical for applications such as rescue, surveillance, and environmental
monitoring, particularly in dense riverine environments where GPS signals are
unreliable. We formalize river following as a coverage control problem in which
the reward function is submodular, yielding diminishing returns as more unique
river segments are visited, thereby framing the task as a Submodular Markov
Decision Process. First, we introduce Marginal Gain Advantage Estimation, which
refines the reward advantage function by using a sliding window baseline
computed from historical episodic returns, thus aligning the advantage
estimation with the agent's evolving recognition of action value in
non-Markovian settings. Second, we develop a Semantic Dynamics Model based on
patchified water semantic masks that provides more interpretable and
data-efficient short-term prediction of future observations compared to latent
vision dynamics models. Third, we present the Constrained Actor Dynamics
Estimator architecture, which integrates the actor, the cost estimator, and SDM
for cost advantage estimation to form a model-based SafeRL framework capable of
solving partially observable Constrained Submodular Markov Decision Processes.
Simulation results demonstrate that MGAE achieves faster convergence and
superior performance over traditional critic-based methods like Generalized
Advantage Estimation. SDM provides more accurate short-term state predictions
that enable the cost estimator to better predict potential violations. Overall,
CADE effectively integrates safety regulation into model-based RL, with the
Lagrangian approach achieving the soft balance of reward and safety during
training, while the safety layer enhances performance during inference by hard
action overlay.
Ссылки и действия
Дополнительные ресурсы: