World4RL: Diffusion World Models for Policy Refinement with Reinforcement Learning for Robotic Manipulation

2509.19080v1 cs.RO, cs.AI 2025-09-25

Авторы:

Zhennan Jiang, Kai Liu, Yuxin Qin, Shuai Tian, Yupeng Zheng, Mingcai Zhou, Chao Yu, Haoran Li, Dongbin Zhao

Резюме на русском

## Контекст Область исследования — динамический анализ и оптимизация политик в условиях ограниченности экспертных данных в процессе обучения. Существующие проблемы заключаются в том, что политики, инициализированные через имитационное обучение, не полностью используют потенциал системы из-за нехватки и размноженности экспертных данных. Реинтерпретация этих политик с помощью реинициализации и расширения возможностей через реинструкцию на основе генеративных моделей является актуальной. Характерным мотивационным фактором является трудность реализации синергетических подходов в обучении на реальных роботах из-за высоких затрат и рисков. Целью данного исследования является развитие методологии, позволяющей рефинить политики с помощью искусственного генеративного моделирования, сохранив высокую универсальность и полноту моделей. ## Метод Методология представляет собой комплексный подход, основанный на двух основных компонентах: 1. **Предварительное обучение модели мирового динамического пространства (Diffusion World Model).** Данная модель стремится генерировать детальную симуляцию многозадачных ситуаций с высокой точностью, основываясь на разнообразных данных многозадачного обучения. 2. **Политическая рефинировка (Policy Refinement) в фиксированном динамическом пространстве.** Здесь происходит оптимизация политики в полностью имитируемой среде с помощью методов реинициализации. Это позволяет избежать взаимодействия с реальным миром в процессе обучения. Архитектура фреймворка включает диффузионные модели, основанные на нейронных сетях с пространственным пространством, которые генерируют разнообразные сценарии для политического рефинирования. Также разработан специальный способ двухходовой кодировки действий, улучшающий точность и эффективность модели в контексте робототехники. ## Результаты Проведены многочисленные эксперименты в симуляторных и реальных условиях. Для использования данных были применены модели стандартных робот-руководств, а также синтетические выборки для моделирования различных сценариев. Основные показатели — успешность выполнения задач, степень достижения целей и точность симуляции. Результаты показали, что политика, предложенная в рамках World4RL, обеспечивает высокую фидбэк-точность и увеличивает успешность задач в сравнении с имитационным обучением и другими контрольными моделями. Данные эксперименты доступны на сайте проекта. ## Значимость Предложенная модель имеет широкие применения в робототехнике, включая системы автоматизированного производства, безопасность в производственных процессах и управляемую окру

Abstract

Robotic manipulation policies are commonly initialized through imitation learning, but their performance is limited by the scarcity and narrow coverage of expert data. Reinforcement learning can refine polices to alleviate this limitation, yet real-robot training is costly and unsafe, while training in simulators suffers from the sim-to-real gap. Recent advances in generative models have demonstrated remarkable capabilities in real-world simulation, with diffusion models in particular excelling at generation. This raises the question of how diffusion model-based world models can be combined to enhance pre-trained policies in robotic manipulation. In this work, we propose World4RL, a framework that employs diffusion-based world models as high-fidelity simulators to refine pre-trained policies entirely in imagined environments for robotic manipulation. Unlike prior works that primarily employ world models for planning, our framework enables direct end-to-end policy optimization. World4RL is designed around two principles: pre-training a diffusion world model that captures diverse dynamics on multi-task datasets and refining policies entirely within a frozen world model to avoid online real-world interactions. We further design a two-hot action encoding scheme tailored for robotic manipulation and adopt diffusion backbones to improve modeling fidelity. Extensive simulation and real-world experiments demonstrate that World4RL provides high-fidelity environment modeling and enables consistent policy refinement, yielding significantly higher success rates compared to imitation learning and other baselines. More visualization results are available at https://world4rl.github.io/.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

World4RL: Diffusion World Models for Policy Refinement with Reinforcement Learning for Robotic Manipulation

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Open-Ended Goal Inference through Actions and Language for Human-Robot Collabora...

Using Machine Learning to Take Stay-or-Go Decisions in Data-driven Drone Mission...

CRAFT-E: A Neuro-Symbolic Framework for Embodied Affordance Grounding

World Models for Autonomous Navigation of Terrestrial Robots from LIDAR Observat...

A Learning-based Control Methodology for Transitioning VTOL UAVs

Навигация