Leveraging Temporally Extended Behavior Sharing for Multi-task Reinforcement Learning

2509.20766v1 cs.RO, cs.LG 2025-09-27

Авторы:

Gawon Lee, Daesol Cho, H. Jin Kim

Резюме на русском

## Контекст Multi-task reinforcement learning (MTRL) является прорывом в области обучения с подкреплением (reinforcement learning, RL), позволяющим агентам эффективнее учиться нескольким задачам одновременно. Эта методика применима в различных областях, включая робототехнику и искусственный интеллект. Однако применение MTRL к робототехническим задачам сталкивается с рядом сложностей. В частности, сбор разнообразных данных для обучения становится дорогостоящим и сложным. Избыточная зависимость от большого объема данных снижает эффективность и масштабируемость системы. В этом контексте возникает потребность в новых методах, которые могут улучшить семпловую эффективность и устойчивость моделей MTRL в робототехнике. ## Метод Разработанная модель, названа **MT-L\'evy**, представляет собой новую подход к эффективному исследованию пространства состояний в MTRL. Основной идеей является комбинация **behavior sharing** (совместного использования поведения между задачами) и **temporally extended exploration** (расширенное исследование в течение временных отрезков). Это достигается при помощи политик, обученных на похожих задачах, которые направляют эксплуатацию к ключевым состояниям. Динамическая настройка уровня исследования основывается на **task success ratios** (успешности выполнения задач). Таким образом, MT-L\'evy обеспечивает более гибкое и эффективное исследование пространства состояний, даже в сложных робототехнических средах. ## Результаты Исследования проводились в средах робототехники, где необходимо было эффективно обучить агента к различным задачам. Для экспериментов использовались различные наборы данных, охватывающие разные уровни сложности и разнообразия задач. Результаты показали, что MT-L\'evy показал значительное улучшение в **sample efficiency** (эффективности использования данных) и **exploration** (исследование пространства состояний). Количественные показатели, такие как reward accumulation (сбор наград) и success rate (успешность выполнения задач), подтвердили эффективность данного подхода. Кроме того, полученные результаты были подкреплены квалитативными анализами, демонстрирующими более эффективное использование пространства состояний в сравнении с существующими методами. ## Значимость Модель MT-L\'evy может быть применена в различных областях, включая робототехнику, искусственный интеллект и системы управления. Основные преимущества заключаются в улучшенной **sample efficiency**, увеличенной **exploration efficiency** и мощности в обработке сложных задач. Влияние этого подхода может быть особенно ощутимо в ситуациях, где данных для обучения ограничено, но требуется высокая эффективность и устойчивость. Такие результаты открывают путь к более эффе

Abstract

Multi-task reinforcement learning (MTRL) offers a promising approach to improve sample efficiency and generalization by training agents across multiple tasks, enabling knowledge sharing between them. However, applying MTRL to robotics remains challenging due to the high cost of collecting diverse task data. To address this, we propose MT-L\'evy, a novel exploration strategy that enhances sample efficiency in MTRL environments by combining behavior sharing across tasks with temporally extended exploration inspired by L\'evy flight. MT-L\'evy leverages policies trained on related tasks to guide exploration towards key states, while dynamically adjusting exploration levels based on task success ratios. This approach enables more efficient state-space coverage, even in complex robotics environments. Empirical results demonstrate that MT-L\'evy significantly improves exploration and sample efficiency, supported by quantitative and qualitative analyses. Ablation studies further highlight the contribution of each component, showing that combining behavior sharing with adaptive exploration strategies can significantly improve the practicality of MTRL in robotics applications.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Leveraging Temporally Extended Behavior Sharing for Multi-task Reinforcement Learning

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Cross-embodied Co-design for Dexterous Hands

OmniDexVLG: Learning Dexterous Grasp Generation from Vision Language Model-Guide...

Digital Twin-based Control Co-Design of Full Vehicle Active Suspensions via Deep...

Modality-Augmented Fine-Tuning of Foundation Robot Policies for Cross-Embodiment...

GR-RL: Going Dexterous and Precise for Long-Horizon Robotic Manipulation

Навигация