Pixel Motion Diffusion is What We Need for Robot Control

2509.22652v1 cs.RO, cs.CV 2025-09-30

Авторы:

E-Ro Nguyen, Yichi Zhang, Kanchana Ranasinghe, Xiang Li, Michael S. Ryoo

Резюме на русском

## Контекст Робототехника становится важной областью для автоматизации и улучшения производительности во многих областях, от промышленности до улучшения жизни. Одна из ключевых проблем в этой области заключается в том, как эффективно перевести высшую цель (мысленное представление действий) в конкретные движущиеся действия робота. Этот процесс становится сложнее, когда требуется учитывать сложности, такие как различные условия в реальной среде и ограниченные возможности робота. Обработка таких задач становится все более важной в сфере роботов. Разработка систем, которые могут устанавливать связь между высшим уровнем мотивации и низкоуровневыми движущимися действиями, является ключевым в этой области. Таким образом, необходимы новые подходы, которые могут объединить эти два уровня для создания более мощных систем для управления роботами. ## Метод Мы предлагаем DAWN (Diffusion is All We Need for robot control), новый рамефр (framework), который использует диффузионные процессы для объединения высшей цели с низкоуровневыми движущимися действиями. Основная идея заключается в том, что оба контроллера (высшего и низкого уровня) описываются как диффузионные процессы, что позволяет создать полностью обучаемую, без шаблонов систему. Это связывает высшие мотивы (например, текстовые команды) с низкими движущимися действиями (например, механическими движениями), чтобы обеспечить более эффективное управление. Этот подход использует структурированную представление пиксельных движущихся представлений, чтобы обеспечить более точную интерпретацию движущихся действий. ## Результаты Мы проверили DAWN на крупном бенчмарке CALVIN, где она достигла среднего показателя на 1.5 раз выше, чем предыдущие модели. Мы также проверили DAWN на MetaWorld для проверки ее мультизадачности и мощности. Несмотря на существующие проблемы с разливом в данных между симуляцией и реальностью, мы продемонстрировали, что модель может быть применена в реальной среде с незначительным тренировком. Это демонстрирует, что диффузионные процессы могут быть эффективно применены в реальных условиях, даже при ограниченных данных. ## Значимость DAWN может быть применена в различных областях, таких как промышленность, домашние роботы и системы помощи для инвалидов. Она предлагает значительные преимущества по сравнению с существующими подходами, такими как точность, передовая мультизадачная способность и гибкость. Благодаря использованию диффузионных процессов, DAWN может обеспечить более стабильное и высококачественное управление, что делает ее привлекательной для многих

Abstract

We present DAWN (Diffusion is All We Need for robot control), a unified diffusion-based framework for language-conditioned robotic manipulation that bridges high-level motion intent and low-level robot action via structured pixel motion representation. In DAWN, both the high-level and low-level controllers are modeled as diffusion processes, yielding a fully trainable, end-to-end system with interpretable intermediate motion abstractions. DAWN achieves state-of-the-art results on the challenging CALVIN benchmark, demonstrating strong multi-task performance, and further validates its effectiveness on MetaWorld. Despite the substantial domain gap between simulation and reality and limited real-world data, we demonstrate reliable real-world transfer with only minimal finetuning, illustrating the practical viability of diffusion-based motion abstractions for robotic control. Our results show the effectiveness of combining diffusion modeling with motion-centric representations as a strong baseline for scalable and robust robot learning. Project page: https://nero1342.github.io/DAWN/

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Pixel Motion Diffusion is What We Need for Robot Control

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

From Generated Human Videos to Physically Plausible Robot Trajectories

Sign Language Recognition using Bidirectional Reservoir Computing

FOM-Nav: Frontier-Object Maps for Object Goal Navigation

Opening the Sim-to-Real Door for Humanoid Pixel-to-Action Policy Transfer

Estimation of Kinematic Motion from Dashcam Footage

Навигация