World4RL: Diffusion World Models for Policy Refinement with Reinforcement Learning for Robotic Manipulation
2509.19080v1
cs.RO, cs.AI
2025-09-25
Авторы:
Zhennan Jiang, Kai Liu, Yuxin Qin, Shuai Tian, Yupeng Zheng, Mingcai Zhou, Chao Yu, Haoran Li, Dongbin Zhao
Резюме на русском
## Контекст
Область исследования — динамический анализ и оптимизация политик в условиях ограниченности экспертных данных в процессе обучения. Существующие проблемы заключаются в том, что политики, инициализированные через имитационное обучение, не полностью используют потенциал системы из-за нехватки и размноженности экспертных данных. Реинтерпретация этих политик с помощью реинициализации и расширения возможностей через реинструкцию на основе генеративных моделей является актуальной. Характерным мотивационным фактором является трудность реализации синергетических подходов в обучении на реальных роботах из-за высоких затрат и рисков. Целью данного исследования является развитие методологии, позволяющей рефинить политики с помощью искусственного генеративного моделирования, сохранив высокую универсальность и полноту моделей.
## Метод
Методология представляет собой комплексный подход, основанный на двух основных компонентах:
1. **Предварительное обучение модели мирового динамического пространства (Diffusion World Model).** Данная модель стремится генерировать детальную симуляцию многозадачных ситуаций с высокой точностью, основываясь на разнообразных данных многозадачного обучения.
2. **Политическая рефинировка (Policy Refinement) в фиксированном динамическом пространстве.** Здесь происходит оптимизация политики в полностью имитируемой среде с помощью методов реинициализации. Это позволяет избежать взаимодействия с реальным миром в процессе обучения.
Архитектура фреймворка включает диффузионные модели, основанные на нейронных сетях с пространственным пространством, которые генерируют разнообразные сценарии для политического рефинирования. Также разработан специальный способ двухходовой кодировки действий, улучшающий точность и эффективность модели в контексте робототехники.
## Результаты
Проведены многочисленные эксперименты в симуляторных и реальных условиях. Для использования данных были применены модели стандартных робот-руководств, а также синтетические выборки для моделирования различных сценариев. Основные показатели — успешность выполнения задач, степень достижения целей и точность симуляции. Результаты показали, что политика, предложенная в рамках World4RL, обеспечивает высокую фидбэк-точность и увеличивает успешность задач в сравнении с имитационным обучением и другими контрольными моделями. Данные эксперименты доступны на сайте проекта.
## Значимость
Предложенная модель имеет широкие применения в робототехнике, включая системы автоматизированного производства, безопасность в производственных процессах и управляемую окру
Abstract
Robotic manipulation policies are commonly initialized through imitation
learning, but their performance is limited by the scarcity and narrow coverage
of expert data. Reinforcement learning can refine polices to alleviate this
limitation, yet real-robot training is costly and unsafe, while training in
simulators suffers from the sim-to-real gap. Recent advances in generative
models have demonstrated remarkable capabilities in real-world simulation, with
diffusion models in particular excelling at generation. This raises the
question of how diffusion model-based world models can be combined to enhance
pre-trained policies in robotic manipulation. In this work, we propose
World4RL, a framework that employs diffusion-based world models as
high-fidelity simulators to refine pre-trained policies entirely in imagined
environments for robotic manipulation. Unlike prior works that primarily employ
world models for planning, our framework enables direct end-to-end policy
optimization. World4RL is designed around two principles: pre-training a
diffusion world model that captures diverse dynamics on multi-task datasets and
refining policies entirely within a frozen world model to avoid online
real-world interactions. We further design a two-hot action encoding scheme
tailored for robotic manipulation and adopt diffusion backbones to improve
modeling fidelity. Extensive simulation and real-world experiments demonstrate
that World4RL provides high-fidelity environment modeling and enables
consistent policy refinement, yielding significantly higher success rates
compared to imitation learning and other baselines. More visualization results
are available at https://world4rl.github.io/.
Ссылки и действия
Дополнительные ресурсы: