Actor-Critic for Continuous Action Chunks: A Reinforcement Learning Framework for Long-Horizon Robotic Manipulation with Sparse Reward

2508.11143v1 cs.RO, cs.AI 2025-08-19
Авторы:

Jiarui Yang, Bin Zhu, Jingjing Chen, Yu-Gang Jiang

Резюме на русском

#### Контекст Одним из основных вызовов в области манипуляции роботов является выполнение задач с длительными горизонтами времени и редкими наградами. Традиционные методы оптимизации часто не способны эффективно справляться с такими задачами из-за нестабильности обучения и неэффективности использования данных. Методы сборки действий (action chunking) показали себя как промышленное решение, однако использование RL для устойчивого и эффективного обучения действий с переменной длиной и высокой размерностью остается затрудненным. Эта статья привносит AC3 в качестве решения этих проблем, ориентированного на построение стабильных и эффективных RL-фреймворков для манипуляции в реальных условиях. #### Метод AC3 (Actor-Critic for Continuous Chunks) — это новый RL-фреймворк, который учится формировать высокомерновые, непрерывные сегменты действий. Для обеспечения стабильности обучения и эффективного использования данных включены следующие механизмы: 1. **Асимметричное обновление актера**: Использование только успешных траекторий для обучения, чтобы избежать нестабильности. 2. **Усовершенствованная система критика**: - **Intra-chunk n-step returns**: Улучшение точности значений за счет нескольких шагов внутри сегментов действий. - **Self-supervised intrinsic rewards**: Дополнительные награды на основе анкоров, связанных с каждым сегментом, для повышения эффективности обучения. #### Результаты Исследования проводились на 25 задачах из BiGym и RLBench. AC3 показал высокую стабильность и эффективность в обучении, даже при небольшом количестве демонстраций и простом архитектуре модели. Результаты показали, что AC3 более устойчиво и эффективно по сравнению с другими RL-фреймворками на большинстве задач, демонстрируя преимущества его нового подхода к управлению с малой затратой ресурсов. #### Значимость Фреймворк AC3 может быть применен в различных робототехнических системах для выполнения задач с длительным горизонтом времени и редкими наградами. Его преимущества включают высокую стабильность и эффективность обучения, что позволяет использовать его в реальных условиях. Будущие исследования будут ориентированы на расширение AC3 на более сложные задачи и интеграцию с другими фреймворками для улучшения производительности. #### Выводы AC3 представляет собой перспективный подход к обучению RL для манипуляции с малой затратой ресурсов. Он доказал свою эффективность в решении задач с длительными горизонтами и редкими наградами, имея устойчивую архитектуру, которая может быть эффективно использована в реальных сценариях. Дальнейшие работы будут сфокусированы на расширении прикладных возможностей AC3 и его интеграции с другими методами.

Abstract

Existing reinforcement learning (RL) methods struggle with long-horizon robotic manipulation tasks, particularly those involving sparse rewards. While action chunking is a promising paradigm for robotic manipulation, using RL to directly learn continuous action chunks in a stable and data-efficient manner remains a critical challenge. This paper introduces AC3 (Actor-Critic for Continuous Chunks), a novel RL framework that learns to generate high-dimensional, continuous action sequences. To make this learning process stable and data-efficient, AC3 incorporates targeted stabilization mechanisms for both the actor and the critic. First, to ensure reliable policy improvement, the actor is trained with an asymmetric update rule, learning exclusively from successful trajectories. Second, to enable effective value learning despite sparse rewards, the critic's update is stabilized using intra-chunk $n$-step returns and further enriched by a self-supervised module providing intrinsic rewards at anchor points aligned with each action chunk. We conducted extensive experiments on 25 tasks from the BiGym and RLBench benchmarks. Results show that by using only a few demonstrations and a simple model architecture, AC3 achieves superior success rates on most tasks, validating its effective design.

Ссылки и действия