DiWA: Diffusion Policy Adaptation with World Models

2508.03645v1 cs.RO, cs.CV, cs.LG 2025-08-09

Авторы:

Akshay L Chandra, Iman Nematollahi, Chenguang Huang, Tim Welschehold, Wolfram Burgard, Abhinav Valada

Резюме на русском

В статье предлагается новый подход, **DiWA** (Diffusion Policy Adaptation with World Models), для тонкой настройки diffusion policies в области обучения роботов. Основная проблема заключается в том, что fine-tuning diffusion policies с помощью reinforcement learning сталкивается с проблемой эффективной пропаграции награды в длинных последовательностях декодирования и требует миллионов реальных взаимодействий, что неэффективно и небезопасно. **DiWA** решает эту проблему, используя world model, обученный на небольшом количестве offline-интеракций, для организации offline-adaptation с использованием reinforcement learning. Это позволяет достичь существенной эффективности при использовании ресурсов и значительно уменьшить необходимое число реальных взаимодействий. На масштабном испытательном наборе **CALVIN**, DiWA достигает улучшений в производительности по 8 задачам, используя только offline-адаптацию, и требует меньшего числа физических взаимодействий по сравнению с модельно-свободными базовыми методами. Это является первым рабочим решением для offline-настройки diffusion policies в реальных роботизированных задачах.

Abstract

Fine-tuning diffusion policies with reinforcement learning (RL) presents significant challenges. The long denoising sequence for each action prediction impedes effective reward propagation. Moreover, standard RL methods require millions of real-world interactions, posing a major bottleneck for practical fine-tuning. Although prior work frames the denoising process in diffusion policies as a Markov Decision Process to enable RL-based updates, its strong dependence on environment interaction remains highly inefficient. To bridge this gap, we introduce DiWA, a novel framework that leverages a world model for fine-tuning diffusion-based robotic skills entirely offline with reinforcement learning. Unlike model-free approaches that require millions of environment interactions to fine-tune a repertoire of robot skills, DiWA achieves effective adaptation using a world model trained once on a few hundred thousand offline play interactions. This results in dramatically improved sample efficiency, making the approach significantly more practical and safer for real-world robot learning. On the challenging CALVIN benchmark, DiWA improves performance across eight tasks using only offline adaptation, while requiring orders of magnitude fewer physical interactions than model-free baselines. To our knowledge, this is the first demonstration of fine-tuning diffusion policies for real-world robotic skills using an offline world model. We make the code publicly available at https://diwa.cs.uni-freiburg.de.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

DiWA: Diffusion Policy Adaptation with World Models

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

TraceGen: World Modeling in 3D Trace Space Enables Learning from Cross-Embodimen...

Observer Actor: Active Vision Imitation Learning with Sparse View Gaussian Splat...

Learning Visually Interpretable Oscillator Networks for Soft Continuum Robots fr...

Compressor-VLA: Instruction-Guided Visual Token Compression for Efficient Roboti...

Real-to-Sim Robot Policy Evaluation with Gaussian Splatting Simulation of Soft-B...

Навигация