Hierarchical Deep Deterministic Policy Gradient for Autonomous Maze Navigation of Mobile Robots

2508.04994v1 cs.RO, cs.AI 2025-08-09
Авторы:

Wenjie Hu, Ye Zhou, Hann Woei Ho

Резюме на русском

## КОНТЕКСТ И ПРОБЛЕМАТИКА Навигация по лабиринту является ключевой задачей в робототехнике, требующей от мобильных роботов эффективного перемещения в сложных средах. Эта задача представляет собой сложную проблему, особенно в условиях наличия разреженных наград, неэффективной исследовательской стратегии и сложностей в планировании длительных траекторий. Традиционное применение алгоритма Deep Deterministic Policy Gradient (DDPG), который доказал свою эффективность в задачах управления, не всегда дает желаемые результаты в лабиринтной навигации. Основные проблемы связаны со слабой устойчивостью, недостаточной эффективностью исследования среды и неоптимальным выполнением задач на длительных горизонтах времени. Эти недостатки часто приводят к низким показателям успешности и средним наградам, а в некоторых случаях даже к неудаче в достижении цели. Мотивацией для разработки нового подхода является необходимость улучшения эффективности и стабильности навигации, а также преодоление текущих ограничений DDPG. Требуется метод, который может эффективно разрешать проблемы разреженности наград и недостаточной исследовательской активности, обеспечивая устойчивую и надежную навигацию в сложных средах. ## ПРЕДЛОЖЕННЫЙ МЕТОД В данной работе предлагается алгоритм Hierarchical DDPG (HDDPG), который состоит из двух уровней политик: высокоуровневой и низкоуровневой. Высокоуровневая политика использует расширенный DDPG для генерации промежуточных подцелей (subgoals) с более длительной временной шкалой, что позволяет управлять задачей с высокоуровневой перспективы. Низкоуровневая политика, также основана на улучшенном DDPG и отвечает за генерацию примитивных действий на основе текущего состояния и назначенной подцели. Для улучшения стабильности используется off-policy correction, который рефинирует подцели путем переобозначения исторических опытов. Для улучшения исследования среды применяется адаптивный параметрический шум, что позволяет роботу более эффективно изучать неизученные области. Также вводится переопределенная функция награды, которая сочетает внутреннюю и внешнюю награду для повышения эффективности обучения. Дополнительные оптимизации, такие как gradient clipping и Xavier initialization, применяются для повышения робустности алгоритма. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Для оценки производительности HDDPG были проведены эксперименты в симуляционной среде, используя Robot Operating System (ROS) и Gazebo. Эксперименты включали три различных цели в задачах автономной навигации по лабиринту. HDDPG показал значительное улучшение по сравнению с базовым DDPG и его вариантами, увеличивший успешность навигации на 56.59% и среднюю награду на 519.03 единиц. Эти результаты демонстрируют высокую эффективность и стабильность предлагаемого метода в решении задач лабиринтной навигации. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Предлагаемый HDDPG алгоритм имеет широкое применение в области мобильной роботике, особенно в задачах автономной навигации в сложных средах. Его преимущества включают высокую устойчивость, эффективность исследования и улучшенное планирование на длительных горизонтах. Это может быть применено в различных сферах, таких как поиск и спасение, логистика и инспекция инфраструктуры, где требуется высокая производительность в условиях сложности и неопределенности среды. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ В рамках данной работы был разработан эффективный алгоритм HDDPG, который значительно улучшает производительность навигации мобильных роботов в лабиринтах. Будущие исследования могут фокусироваться на дальнейшем улучшении алгоритма, в том числе на адаптации к другим типам сред и задач, а также на интеграции с другими технологиями, такими как коммуникация между роботами и многоагентные системы.

Abstract

Maze navigation is a fundamental challenge in robotics, requiring agents to traverse complex environments efficiently. While the Deep Deterministic Policy Gradient (DDPG) algorithm excels in control tasks, its performance in maze navigation suffers from sparse rewards, inefficient exploration, and long-horizon planning difficulties, often leading to low success rates and average rewards, sometimes even failing to achieve effective navigation. To address these limitations, this paper proposes an efficient Hierarchical DDPG (HDDPG) algorithm, which includes high-level and low-level policies. The high-level policy employs an advanced DDPG framework to generate intermediate subgoals from a long-term perspective and on a higher temporal scale. The low-level policy, also powered by the improved DDPG algorithm, generates primitive actions by observing current states and following the subgoal assigned by the high-level policy. The proposed method enhances stability with off-policy correction, refining subgoal assignments by relabeling historical experiences. Additionally, adaptive parameter space noise is utilized to improve exploration, and a reshaped intrinsic-extrinsic reward function is employed to boost learning efficiency. Further optimizations, including gradient clipping and Xavier initialization, are employed to improve robustness. The proposed algorithm is rigorously evaluated through numerical simulation experiments executed using the Robot Operating System (ROS) and Gazebo. Regarding the three distinct final targets in autonomous maze navigation tasks, HDDPG significantly overcomes the limitations of standard DDPG and its variants, improving the success rate by at least 56.59% and boosting the average reward by a minimum of 519.03 compared to baseline algorithms.

Ссылки и действия