📊 Статистика дайджестов
Всего дайджестов: 34022 Добавлено сегодня: 82
Последнее обновление: сегодня
Авторы:
Yiting He, Zhishuai Liu, Weixin Wang, Pan Xu
Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Annotation:
Off-dynamics reinforcement learning (RL), where training and deployment
transition dynamics are different, can be formulated as learning in a robust
Markov decision process (RMDP) where uncertainties in transition dynamics are
imposed. Existing literature mostly assumes access to generative models
allowing arbitrary state-action queries or pre-collected datasets with a good
state coverage of the deployment environment, bypassing the challenge of
exploration. In this work, we study a more realist...
Авторы:
Yigit Korkmaz, Urvi Bhuwania, Ayush Jain, Erdem Bıyık
Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Annotation:
Value-based algorithms are a cornerstone of off-policy reinforcement learning
due to their simplicity and training stability. However, their use has
traditionally been restricted to discrete action spaces, as they rely on
estimating Q-values for individual state-action pairs. In continuous action
spaces, evaluating the Q-value over the entire action space becomes
computationally infeasible. To address this, actor-critic methods are typically
employed, where a critic is trained on off-policy data...
📄 Uncertainty-Based Smooth Policy Regularisation for Reinforcement Learning with Few Demonstrations
2025-09-23Авторы:
Yujie Zhu, Charles A. Hepburn, Matthew Thorpe, Giovanni Montana
Опубликовано: 2024-02-22
## Контекст
Успешное применение методов машинного обучения в задачах реального мира часто зависит от подачи достаточного количества качественных данных. Однако в случае с реинфорсмент-лирнингом (RL), спарсительные награды часто требуют дополнительных мер для эффективного обучения. Демонстрации (предварительно выполненные задачи) могут существенно ускорить обучение, но их использование требует точного понимания, когда лучше следовать за демонстрацией, а когда — учитывать собственную политику. Это особенно актуально при ограниченном количестве демонстраций. Мы предлагаем фреймворм Smooth Policy Regularisation from Demonstrations (SPReD), который стремится решить эту проблему, предоставив агенту возможность в зависимости от уровня неопределенности выбирать стратегию.
## Метод
SPReD обращается к методам ансамбля для оценки распределения Q-значений для демонстрационных и собственных действий агента. Это позволяет конкретизировать неопределенность каждого варианта действия. Для оценки совпадения с демонстрацией, мы предлагаем два метода:
1. **Пробабильный подход** — оценивает вероятность того, что демонстрация выдаст лучшую награду.
2. **Подход на основе приближения прибыли** — изменяет вес копирования в зависимости от статистической значимости.
В отличие от бинарных методов (например, Q-filter), SPReD применяет непрерывные регуляризационные взвеши, уменьшая градиентную нестабильность во время обучения.
## Результаты
Мы проверили SPReD на 8 задачах робототехники, включая задачи с неопределенными и спарсительными наградами. Задачи были выполнены на основе данных с двумя симуляторами: PyBullet и Isaac Gym. Наши результаты показали, что SPReD превосходит существующие методы на 14 раз в сложных задачах, сохраняя низкую чувствительность к качеству и количеству демонстраций. Эти результаты демонстрируют высокую универсальность и стабильность SPReD.
## Значимость
SPReD может быть применен в различных задачах, где необходимо быстрое улучшение поведения на основе ограниченного числа примеров. Например, в робототехнике, интерфейсах с пользователем, или в ситуациях, где предоставить много примеров невозможно. Он обеспечивает более гибкий и надёжный подход к обучению от RL, позволяя эффективно использовать небольшие числа демонстраций.
## Выводы
Мы представили фреймворм SPReD для RL с недостатком наград, который использует методы ансамбля для оценки неопределенности демонстраций и собственных действий. SPReD предоставляет гибкий и эффективный способ решать задачи, где демонстрации используются в узком количестве. Мы планируем расширить исследовани
Annotation:
In reinforcement learning with sparse rewards, demonstrations can accelerate
learning, but determining when to imitate them remains challenging. We propose
Smooth Policy Regularisation from Demonstrations (SPReD), a framework that
addresses the fundamental question: when should an agent imitate a
demonstration versus follow its own policy? SPReD uses ensemble methods to
explicitly model Q-value distributions for both demonstration and policy
actions, quantifying uncertainty for comparisons. We d...