Solving Robotics Tasks with Prior Demonstration via Exploration-Efficient Deep Reinforcement Learning

2509.04069v1 cs.RO, cs.LG 2025-09-09
Авторы:

Chengyandan Shen, Christoffer Sloth

Резюме на русском

## Контекст Роботизированные системы, особенно в промышленности, часто требуют последовательного выполнения сложных задач, таких как загрузка бачков или открытие ящиков. Однако полностью управлять такими задачами всегда требует много времени и ресурсов, так как необходимо последовательно корректировать поведение, проводить эксперименты и исправлять ошибки. Демонстрационные подходы помогают улучшить эффективность обучения, но взаимодействия с окружением во время обучения могут быть очень ресурсоёмкими. Для устранения этой проблемы, в работе предлагается **DRLR (Deep Reinforcement Learning with Reference policy)**, фреймворк, который использует **Imitation Bootstrapped Reinforcement Learning (IBRL)** для обучения на основе демонстраций. Целью является уменьшение количества необходимых взаимодействий с окружением и повышение эффективности управления. ## Метод DRLR-фреймворк основывается на Imitation Bootstrapped Reinforcement Learning (IBRL), но включает улучшенный **action selection module**, который устраняет bootstrapping error, снижая неэффективность при взаимодействии с окружением. Это решение позволяет повысить эффективность обучения, а также использовать **Soft Actor-Critic (SAC)** в качестве главного RL-политики вместо TD3, что защищает систему от потери гибкости в первых этапах обучения. Этот подход позволяет избежать ситуаций, когда политика застревает в под-оптимальных решениях. ## Результаты В экспериментах использовались две задачи: загрузка бачка и открытие ящика. Эти задачи требуют многократных взаимодействий с окружением и позволяют проверить эффективность DRLR. Для сравнения, результаты показали, что DRLR эффективнее других подходов по многим показателям, включая скорость обучения и точность выполнения задач. Модель показала высокую гибкость при работе с различными размерами окружения и качествами демонстраций. Далее, для проверки реального применения, DRLR была применена на живой станции с колесным погрузчиком, и реальные результаты подтвердили, что DRLR может быть успешно развернута в промышленных задачах. ## Значимость DRLR-фреймворк может быть применен в различных областях, включая промышленную автоматизацию, складские управление, а также в задачи по управлению роботами в реальном времени. Основное преимущество заключается в снижении количества необходимых взаимодействий с окружением, что позволяет экономить время и ресурсы. Благодаря высокой точности и скорости обучения, DRLR может значительно повысить эффективность и гибкость в сложных роботизированных системах. ## Выводы В целом, DRLR показал себя как эффективный подход для обучения роботов с демонстрациями. Он уменьшает количество необходимых взаимодействий, повышает точность и гибкость, а также под

Abstract

This paper proposes an exploration-efficient Deep Reinforcement Learning with Reference policy (DRLR) framework for learning robotics tasks that incorporates demonstrations. The DRLR framework is developed based on an algorithm called Imitation Bootstrapped Reinforcement Learning (IBRL). We propose to improve IBRL by modifying the action selection module. The proposed action selection module provides a calibrated Q-value, which mitigates the bootstrapping error that otherwise leads to inefficient exploration. Furthermore, to prevent the RL policy from converging to a sub-optimal policy, SAC is used as the RL policy instead of TD3. The effectiveness of our method in mitigating bootstrapping error and preventing overfitting is empirically validated by learning two robotics tasks: bucket loading and open drawer, which require extensive interactions with the environment. Simulation results also demonstrate the robustness of the DRLR framework across tasks with both low and high state-action dimensions, and varying demonstration qualities. To evaluate the developed framework on a real-world industrial robotics task, the bucket loading task is deployed on a real wheel loader. The sim2real results validate the successful deployment of the DRLR framework.

Ссылки и действия