Solving Robotics Tasks with Prior Demonstration via Exploration-Efficient Deep Reinforcement Learning
2509.04069v1
cs.RO, cs.LG
2025-09-09
Авторы:
Chengyandan Shen, Christoffer Sloth
Резюме на русском
## Контекст
Роботизированные системы, особенно в промышленности, часто требуют последовательного выполнения сложных задач, таких как загрузка бачков или открытие ящиков. Однако полностью управлять такими задачами всегда требует много времени и ресурсов, так как необходимо последовательно корректировать поведение, проводить эксперименты и исправлять ошибки. Демонстрационные подходы помогают улучшить эффективность обучения, но взаимодействия с окружением во время обучения могут быть очень ресурсоёмкими. Для устранения этой проблемы, в работе предлагается **DRLR (Deep Reinforcement Learning with Reference policy)**, фреймворк, который использует **Imitation Bootstrapped Reinforcement Learning (IBRL)** для обучения на основе демонстраций. Целью является уменьшение количества необходимых взаимодействий с окружением и повышение эффективности управления.
## Метод
DRLR-фреймворк основывается на Imitation Bootstrapped Reinforcement Learning (IBRL), но включает улучшенный **action selection module**, который устраняет bootstrapping error, снижая неэффективность при взаимодействии с окружением. Это решение позволяет повысить эффективность обучения, а также использовать **Soft Actor-Critic (SAC)** в качестве главного RL-политики вместо TD3, что защищает систему от потери гибкости в первых этапах обучения. Этот подход позволяет избежать ситуаций, когда политика застревает в под-оптимальных решениях.
## Результаты
В экспериментах использовались две задачи: загрузка бачка и открытие ящика. Эти задачи требуют многократных взаимодействий с окружением и позволяют проверить эффективность DRLR. Для сравнения, результаты показали, что DRLR эффективнее других подходов по многим показателям, включая скорость обучения и точность выполнения задач. Модель показала высокую гибкость при работе с различными размерами окружения и качествами демонстраций. Далее, для проверки реального применения, DRLR была применена на живой станции с колесным погрузчиком, и реальные результаты подтвердили, что DRLR может быть успешно развернута в промышленных задачах.
## Значимость
DRLR-фреймворк может быть применен в различных областях, включая промышленную автоматизацию, складские управление, а также в задачи по управлению роботами в реальном времени. Основное преимущество заключается в снижении количества необходимых взаимодействий с окружением, что позволяет экономить время и ресурсы. Благодаря высокой точности и скорости обучения, DRLR может значительно повысить эффективность и гибкость в сложных роботизированных системах.
## Выводы
В целом, DRLR показал себя как эффективный подход для обучения роботов с демонстрациями. Он уменьшает количество необходимых взаимодействий, повышает точность и гибкость, а также под
Abstract
This paper proposes an exploration-efficient Deep Reinforcement Learning with
Reference policy (DRLR) framework for learning robotics tasks that incorporates
demonstrations. The DRLR framework is developed based on an algorithm called
Imitation Bootstrapped Reinforcement Learning (IBRL). We propose to improve
IBRL by modifying the action selection module. The proposed action selection
module provides a calibrated Q-value, which mitigates the bootstrapping error
that otherwise leads to inefficient exploration. Furthermore, to prevent the RL
policy from converging to a sub-optimal policy, SAC is used as the RL policy
instead of TD3. The effectiveness of our method in mitigating bootstrapping
error and preventing overfitting is empirically validated by learning two
robotics tasks: bucket loading and open drawer, which require extensive
interactions with the environment. Simulation results also demonstrate the
robustness of the DRLR framework across tasks with both low and high
state-action dimensions, and varying demonstration qualities. To evaluate the
developed framework on a real-world industrial robotics task, the bucket
loading task is deployed on a real wheel loader. The sim2real results validate
the successful deployment of the DRLR framework.
Ссылки и действия
Дополнительные ресурсы: