Pixel Motion Diffusion is What We Need for Robot Control
2509.22652v1
cs.RO, cs.CV
2025-09-30
Авторы:
E-Ro Nguyen, Yichi Zhang, Kanchana Ranasinghe, Xiang Li, Michael S. Ryoo
Резюме на русском
## Контекст
Робототехника становится важной областью для автоматизации и улучшения производительности во многих областях, от промышленности до улучшения жизни. Одна из ключевых проблем в этой области заключается в том, как эффективно перевести высшую цель (мысленное представление действий) в конкретные движущиеся действия робота. Этот процесс становится сложнее, когда требуется учитывать сложности, такие как различные условия в реальной среде и ограниченные возможности робота. Обработка таких задач становится все более важной в сфере роботов. Разработка систем, которые могут устанавливать связь между высшим уровнем мотивации и низкоуровневыми движущимися действиями, является ключевым в этой области. Таким образом, необходимы новые подходы, которые могут объединить эти два уровня для создания более мощных систем для управления роботами.
## Метод
Мы предлагаем DAWN (Diffusion is All We Need for robot control), новый рамефр (framework), который использует диффузионные процессы для объединения высшей цели с низкоуровневыми движущимися действиями. Основная идея заключается в том, что оба контроллера (высшего и низкого уровня) описываются как диффузионные процессы, что позволяет создать полностью обучаемую, без шаблонов систему. Это связывает высшие мотивы (например, текстовые команды) с низкими движущимися действиями (например, механическими движениями), чтобы обеспечить более эффективное управление. Этот подход использует структурированную представление пиксельных движущихся представлений, чтобы обеспечить более точную интерпретацию движущихся действий.
## Результаты
Мы проверили DAWN на крупном бенчмарке CALVIN, где она достигла среднего показателя на 1.5 раз выше, чем предыдущие модели. Мы также проверили DAWN на MetaWorld для проверки ее мультизадачности и мощности. Несмотря на существующие проблемы с разливом в данных между симуляцией и реальностью, мы продемонстрировали, что модель может быть применена в реальной среде с незначительным тренировком. Это демонстрирует, что диффузионные процессы могут быть эффективно применены в реальных условиях, даже при ограниченных данных.
## Значимость
DAWN может быть применена в различных областях, таких как промышленность, домашние роботы и системы помощи для инвалидов. Она предлагает значительные преимущества по сравнению с существующими подходами, такими как точность, передовая мультизадачная способность и гибкость. Благодаря использованию диффузионных процессов, DAWN может обеспечить более стабильное и высококачественное управление, что делает ее привлекательной для многих
Abstract
We present DAWN (Diffusion is All We Need for robot control), a unified
diffusion-based framework for language-conditioned robotic manipulation that
bridges high-level motion intent and low-level robot action via structured
pixel motion representation. In DAWN, both the high-level and low-level
controllers are modeled as diffusion processes, yielding a fully trainable,
end-to-end system with interpretable intermediate motion abstractions. DAWN
achieves state-of-the-art results on the challenging CALVIN benchmark,
demonstrating strong multi-task performance, and further validates its
effectiveness on MetaWorld. Despite the substantial domain gap between
simulation and reality and limited real-world data, we demonstrate reliable
real-world transfer with only minimal finetuning, illustrating the practical
viability of diffusion-based motion abstractions for robotic control. Our
results show the effectiveness of combining diffusion modeling with
motion-centric representations as a strong baseline for scalable and robust
robot learning. Project page: https://nero1342.github.io/DAWN/
Ссылки и действия
Дополнительные ресурсы: