Uncertainty-Based Smooth Policy Regularisation for Reinforcement Learning with Few Demonstrations
2509.15981v1
cs.LG, cs.AI, cs.RO, stat.ML
2025-09-23
Авторы:
Yujie Zhu, Charles A. Hepburn, Matthew Thorpe, Giovanni Montana
Резюме на русском
Опубликовано: 2024-02-22
## Контекст
Успешное применение методов машинного обучения в задачах реального мира часто зависит от подачи достаточного количества качественных данных. Однако в случае с реинфорсмент-лирнингом (RL), спарсительные награды часто требуют дополнительных мер для эффективного обучения. Демонстрации (предварительно выполненные задачи) могут существенно ускорить обучение, но их использование требует точного понимания, когда лучше следовать за демонстрацией, а когда — учитывать собственную политику. Это особенно актуально при ограниченном количестве демонстраций. Мы предлагаем фреймворм Smooth Policy Regularisation from Demonstrations (SPReD), который стремится решить эту проблему, предоставив агенту возможность в зависимости от уровня неопределенности выбирать стратегию.
## Метод
SPReD обращается к методам ансамбля для оценки распределения Q-значений для демонстрационных и собственных действий агента. Это позволяет конкретизировать неопределенность каждого варианта действия. Для оценки совпадения с демонстрацией, мы предлагаем два метода:
1. **Пробабильный подход** — оценивает вероятность того, что демонстрация выдаст лучшую награду.
2. **Подход на основе приближения прибыли** — изменяет вес копирования в зависимости от статистической значимости.
В отличие от бинарных методов (например, Q-filter), SPReD применяет непрерывные регуляризационные взвеши, уменьшая градиентную нестабильность во время обучения.
## Результаты
Мы проверили SPReD на 8 задачах робототехники, включая задачи с неопределенными и спарсительными наградами. Задачи были выполнены на основе данных с двумя симуляторами: PyBullet и Isaac Gym. Наши результаты показали, что SPReD превосходит существующие методы на 14 раз в сложных задачах, сохраняя низкую чувствительность к качеству и количеству демонстраций. Эти результаты демонстрируют высокую универсальность и стабильность SPReD.
## Значимость
SPReD может быть применен в различных задачах, где необходимо быстрое улучшение поведения на основе ограниченного числа примеров. Например, в робототехнике, интерфейсах с пользователем, или в ситуациях, где предоставить много примеров невозможно. Он обеспечивает более гибкий и надёжный подход к обучению от RL, позволяя эффективно использовать небольшие числа демонстраций.
## Выводы
Мы представили фреймворм SPReD для RL с недостатком наград, который использует методы ансамбля для оценки неопределенности демонстраций и собственных действий. SPReD предоставляет гибкий и эффективный способ решать задачи, где демонстрации используются в узком количестве. Мы планируем расширить исследовани
Abstract
In reinforcement learning with sparse rewards, demonstrations can accelerate
learning, but determining when to imitate them remains challenging. We propose
Smooth Policy Regularisation from Demonstrations (SPReD), a framework that
addresses the fundamental question: when should an agent imitate a
demonstration versus follow its own policy? SPReD uses ensemble methods to
explicitly model Q-value distributions for both demonstration and policy
actions, quantifying uncertainty for comparisons. We develop two complementary
uncertainty-aware methods: a probabilistic approach estimating the likelihood
of demonstration superiority, and an advantage-based approach scaling imitation
by statistical significance. Unlike prevailing methods (e.g. Q-filter) that
make binary imitation decisions, SPReD applies continuous,
uncertainty-proportional regularisation weights, reducing gradient variance
during training. Despite its computational simplicity, SPReD achieves
remarkable gains in experiments across eight robotics tasks, outperforming
existing approaches by up to a factor of 14 in complex tasks while maintaining
robustness to demonstration quality and quantity. Our code is available at
https://github.com/YujieZhu7/SPReD.