Hierarchical Deep Deterministic Policy Gradient for Autonomous Maze Navigation of Mobile Robots
2508.04994v1
cs.RO, cs.AI
2025-08-09
Авторы:
Wenjie Hu, Ye Zhou, Hann Woei Ho
Резюме на русском
## КОНТЕКСТ И ПРОБЛЕМАТИКА
Навигация по лабиринту является ключевой задачей в робототехнике, требующей от мобильных роботов эффективного перемещения в сложных средах. Эта задача представляет собой сложную проблему, особенно в условиях наличия разреженных наград, неэффективной исследовательской стратегии и сложностей в планировании длительных траекторий. Традиционное применение алгоритма Deep Deterministic Policy Gradient (DDPG), который доказал свою эффективность в задачах управления, не всегда дает желаемые результаты в лабиринтной навигации. Основные проблемы связаны со слабой устойчивостью, недостаточной эффективностью исследования среды и неоптимальным выполнением задач на длительных горизонтах времени. Эти недостатки часто приводят к низким показателям успешности и средним наградам, а в некоторых случаях даже к неудаче в достижении цели.
Мотивацией для разработки нового подхода является необходимость улучшения эффективности и стабильности навигации, а также преодоление текущих ограничений DDPG. Требуется метод, который может эффективно разрешать проблемы разреженности наград и недостаточной исследовательской активности, обеспечивая устойчивую и надежную навигацию в сложных средах.
## ПРЕДЛОЖЕННЫЙ МЕТОД
В данной работе предлагается алгоритм Hierarchical DDPG (HDDPG), который состоит из двух уровней политик: высокоуровневой и низкоуровневой. Высокоуровневая политика использует расширенный DDPG для генерации промежуточных подцелей (subgoals) с более длительной временной шкалой, что позволяет управлять задачей с высокоуровневой перспективы. Низкоуровневая политика, также основана на улучшенном DDPG и отвечает за генерацию примитивных действий на основе текущего состояния и назначенной подцели.
Для улучшения стабильности используется off-policy correction, который рефинирует подцели путем переобозначения исторических опытов. Для улучшения исследования среды применяется адаптивный параметрический шум, что позволяет роботу более эффективно изучать неизученные области. Также вводится переопределенная функция награды, которая сочетает внутреннюю и внешнюю награду для повышения эффективности обучения. Дополнительные оптимизации, такие как gradient clipping и Xavier initialization, применяются для повышения робустности алгоритма.
## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ
Для оценки производительности HDDPG были проведены эксперименты в симуляционной среде, используя Robot Operating System (ROS) и Gazebo. Эксперименты включали три различных цели в задачах автономной навигации по лабиринту. HDDPG показал значительное улучшение по сравнению с базовым DDPG и его вариантами, увеличивший успешность навигации на 56.59% и среднюю награду на 519.03 единиц. Эти результаты демонстрируют высокую эффективность и стабильность предлагаемого метода в решении задач лабиринтной навигации.
## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ
Предлагаемый HDDPG алгоритм имеет широкое применение в области мобильной роботике, особенно в задачах автономной навигации в сложных средах. Его преимущества включают высокую устойчивость, эффективность исследования и улучшенное планирование на длительных горизонтах. Это может быть применено в различных сферах, таких как поиск и спасение, логистика и инспекция инфраструктуры, где требуется высокая производительность в условиях сложности и неопределенности среды.
## ВЫВОДЫ И ПЕРСПЕКТИВЫ
В рамках данной работы был разработан эффективный алгоритм HDDPG, который значительно улучшает производительность навигации мобильных роботов в лабиринтах. Будущие исследования могут фокусироваться на дальнейшем улучшении алгоритма, в том числе на адаптации к другим типам сред и задач, а также на интеграции с другими технологиями, такими как коммуникация между роботами и многоагентные системы.
Abstract
Maze navigation is a fundamental challenge in robotics, requiring agents to
traverse complex environments efficiently. While the Deep Deterministic Policy
Gradient (DDPG) algorithm excels in control tasks, its performance in maze
navigation suffers from sparse rewards, inefficient exploration, and
long-horizon planning difficulties, often leading to low success rates and
average rewards, sometimes even failing to achieve effective navigation. To
address these limitations, this paper proposes an efficient Hierarchical DDPG
(HDDPG) algorithm, which includes high-level and low-level policies. The
high-level policy employs an advanced DDPG framework to generate intermediate
subgoals from a long-term perspective and on a higher temporal scale. The
low-level policy, also powered by the improved DDPG algorithm, generates
primitive actions by observing current states and following the subgoal
assigned by the high-level policy. The proposed method enhances stability with
off-policy correction, refining subgoal assignments by relabeling historical
experiences. Additionally, adaptive parameter space noise is utilized to
improve exploration, and a reshaped intrinsic-extrinsic reward function is
employed to boost learning efficiency. Further optimizations, including
gradient clipping and Xavier initialization, are employed to improve
robustness. The proposed algorithm is rigorously evaluated through numerical
simulation experiments executed using the Robot Operating System (ROS) and
Gazebo. Regarding the three distinct final targets in autonomous maze
navigation tasks, HDDPG significantly overcomes the limitations of standard
DDPG and its variants, improving the success rate by at least 56.59% and
boosting the average reward by a minimum of 519.03 compared to baseline
algorithms.
Ссылки и действия
Дополнительные ресурсы: