📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня
Авторы:

Yiting He, Zhishuai Liu, Weixin Wang, Pan Xu

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Annotation:
Off-dynamics reinforcement learning (RL), where training and deployment transition dynamics are different, can be formulated as learning in a robust Markov decision process (RMDP) where uncertainties in transition dynamics are imposed. Existing literature mostly assumes access to generative models allowing arbitrary state-action queries or pre-collected datasets with a good state coverage of the deployment environment, bypassing the challenge of exploration. In this work, we study a more realist...
ID: 2511.05396v1 cs.LG, cs.AI, cs.RO, stat.ML
Авторы:

Yigit Korkmaz, Urvi Bhuwania, Ayush Jain, Erdem Bıyık

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Annotation:
Value-based algorithms are a cornerstone of off-policy reinforcement learning due to their simplicity and training stability. However, their use has traditionally been restricted to discrete action spaces, as they rely on estimating Q-values for individual state-action pairs. In continuous action spaces, evaluating the Q-value over the entire action space becomes computationally infeasible. To address this, actor-critic methods are typically employed, where a critic is trained on off-policy data...
ID: 2510.18828v1 cs.LG, cs.AI, cs.RO, stat.ML
Авторы:

Yujie Zhu, Charles A. Hepburn, Matthew Thorpe, Giovanni Montana

Опубликовано: 2024-02-22 ## Контекст Успешное применение методов машинного обучения в задачах реального мира часто зависит от подачи достаточного количества качественных данных. Однако в случае с реинфорсмент-лирнингом (RL), спарсительные награды часто требуют дополнительных мер для эффективного обучения. Демонстрации (предварительно выполненные задачи) могут существенно ускорить обучение, но их использование требует точного понимания, когда лучше следовать за демонстрацией, а когда — учитывать собственную политику. Это особенно актуально при ограниченном количестве демонстраций. Мы предлагаем фреймворм Smooth Policy Regularisation from Demonstrations (SPReD), который стремится решить эту проблему, предоставив агенту возможность в зависимости от уровня неопределенности выбирать стратегию. ## Метод SPReD обращается к методам ансамбля для оценки распределения Q-значений для демонстрационных и собственных действий агента. Это позволяет конкретизировать неопределенность каждого варианта действия. Для оценки совпадения с демонстрацией, мы предлагаем два метода: 1. **Пробабильный подход** — оценивает вероятность того, что демонстрация выдаст лучшую награду. 2. **Подход на основе приближения прибыли** — изменяет вес копирования в зависимости от статистической значимости. В отличие от бинарных методов (например, Q-filter), SPReD применяет непрерывные регуляризационные взвеши, уменьшая градиентную нестабильность во время обучения. ## Результаты Мы проверили SPReD на 8 задачах робототехники, включая задачи с неопределенными и спарсительными наградами. Задачи были выполнены на основе данных с двумя симуляторами: PyBullet и Isaac Gym. Наши результаты показали, что SPReD превосходит существующие методы на 14 раз в сложных задачах, сохраняя низкую чувствительность к качеству и количеству демонстраций. Эти результаты демонстрируют высокую универсальность и стабильность SPReD. ## Значимость SPReD может быть применен в различных задачах, где необходимо быстрое улучшение поведения на основе ограниченного числа примеров. Например, в робототехнике, интерфейсах с пользователем, или в ситуациях, где предоставить много примеров невозможно. Он обеспечивает более гибкий и надёжный подход к обучению от RL, позволяя эффективно использовать небольшие числа демонстраций. ## Выводы Мы представили фреймворм SPReD для RL с недостатком наград, который использует методы ансамбля для оценки неопределенности демонстраций и собственных действий. SPReD предоставляет гибкий и эффективный способ решать задачи, где демонстрации используются в узком количестве. Мы планируем расширить исследовани
Annotation:
In reinforcement learning with sparse rewards, demonstrations can accelerate learning, but determining when to imitate them remains challenging. We propose Smooth Policy Regularisation from Demonstrations (SPReD), a framework that addresses the fundamental question: when should an agent imitate a demonstration versus follow its own policy? SPReD uses ensemble methods to explicitly model Q-value distributions for both demonstration and policy actions, quantifying uncertainty for comparisons. We d...
ID: 2509.15981v1 cs.LG, cs.AI, cs.RO, stat.ML