Actor-Critic for Continuous Action Chunks: A Reinforcement Learning Framework for Long-Horizon Robotic Manipulation with Sparse Reward
2508.11143v1
cs.RO, cs.AI
2025-08-19
Авторы:
Jiarui Yang, Bin Zhu, Jingjing Chen, Yu-Gang Jiang
Резюме на русском
#### Контекст
Одним из основных вызовов в области манипуляции роботов является выполнение задач с длительными горизонтами времени и редкими наградами. Традиционные методы оптимизации часто не способны эффективно справляться с такими задачами из-за нестабильности обучения и неэффективности использования данных. Методы сборки действий (action chunking) показали себя как промышленное решение, однако использование RL для устойчивого и эффективного обучения действий с переменной длиной и высокой размерностью остается затрудненным. Эта статья привносит AC3 в качестве решения этих проблем, ориентированного на построение стабильных и эффективных RL-фреймворков для манипуляции в реальных условиях.
#### Метод
AC3 (Actor-Critic for Continuous Chunks) — это новый RL-фреймворк, который учится формировать высокомерновые, непрерывные сегменты действий. Для обеспечения стабильности обучения и эффективного использования данных включены следующие механизмы:
1. **Асимметричное обновление актера**: Использование только успешных траекторий для обучения, чтобы избежать нестабильности.
2. **Усовершенствованная система критика**:
- **Intra-chunk n-step returns**: Улучшение точности значений за счет нескольких шагов внутри сегментов действий.
- **Self-supervised intrinsic rewards**: Дополнительные награды на основе анкоров, связанных с каждым сегментом, для повышения эффективности обучения.
#### Результаты
Исследования проводились на 25 задачах из BiGym и RLBench. AC3 показал высокую стабильность и эффективность в обучении, даже при небольшом количестве демонстраций и простом архитектуре модели. Результаты показали, что AC3 более устойчиво и эффективно по сравнению с другими RL-фреймворками на большинстве задач, демонстрируя преимущества его нового подхода к управлению с малой затратой ресурсов.
#### Значимость
Фреймворк AC3 может быть применен в различных робототехнических системах для выполнения задач с длительным горизонтом времени и редкими наградами. Его преимущества включают высокую стабильность и эффективность обучения, что позволяет использовать его в реальных условиях. Будущие исследования будут ориентированы на расширение AC3 на более сложные задачи и интеграцию с другими фреймворками для улучшения производительности.
#### Выводы
AC3 представляет собой перспективный подход к обучению RL для манипуляции с малой затратой ресурсов. Он доказал свою эффективность в решении задач с длительными горизонтами и редкими наградами, имея устойчивую архитектуру, которая может быть эффективно использована в реальных сценариях. Дальнейшие работы будут сфокусированы на расширении прикладных возможностей AC3 и его интеграции с другими методами.
Abstract
Existing reinforcement learning (RL) methods struggle with long-horizon
robotic manipulation tasks, particularly those involving sparse rewards. While
action chunking is a promising paradigm for robotic manipulation, using RL to
directly learn continuous action chunks in a stable and data-efficient manner
remains a critical challenge. This paper introduces AC3 (Actor-Critic for
Continuous Chunks), a novel RL framework that learns to generate
high-dimensional, continuous action sequences. To make this learning process
stable and data-efficient, AC3 incorporates targeted stabilization mechanisms
for both the actor and the critic. First, to ensure reliable policy
improvement, the actor is trained with an asymmetric update rule, learning
exclusively from successful trajectories. Second, to enable effective value
learning despite sparse rewards, the critic's update is stabilized using
intra-chunk $n$-step returns and further enriched by a self-supervised module
providing intrinsic rewards at anchor points aligned with each action chunk. We
conducted extensive experiments on 25 tasks from the BiGym and RLBench
benchmarks. Results show that by using only a few demonstrations and a simple
model architecture, AC3 achieves superior success rates on most tasks,
validating its effective design.
Ссылки и действия
Дополнительные ресурсы: