PoseDiff: A Unified Diffusion Model Bridging Robot Pose Estimation and Video-to-Action Control

2509.24591v1 cs.RO, cs.AI 2025-10-01
Авторы:

Haozhuo Zhang, Michele Caprio, Jing Shao, Qiang Zhang, Jian Tang, Shanghang Zhang, Wei Pan

Резюме на русском

## Контекст Одна из основных задач в области энд-то-энд искусственного интеллекта (Embodied AI) заключается в создании систем, которые могут эффективно объединить чувствительные и действительные модули для более широкого использования в таких задачах, как визуальная позыва и динамическое управление. Несмотря на появление многочисленных подходов к этим задачам, существуют проблемы, такие как низкая точность, высокая сложность внедрения, сложность в управлении, связанная с несколькими стадиями процесса. Существуют технические и эффективностьские ограничения. В этом контексте целью этой работы является разработка универсального подхода, который может объединить эти модули в единую систему, обеспечивая оптимальные результаты в области визуальной позыва и динамического управления. ## Метод PoseDiff представляет собой универсальную систему, которая использует диффузионные модели для решения задач визуальной позыва и динамического управления. Основная идея заключается в том, чтобы объединить эти две задачи в одном решении. PoseDiff работает с помощью диффузионных моделей, которые позволяют построить структурированную модель роботских состояний (например, 3D-кейпоинтов или углов суставов) из однородного РВЖ-образа. Эта модель также решает задачу динамического управления путем генерирования движений в долгосрочном виде с помощью свёрточной архитектуры, которая синхронизирует видео-ключевые кадры с контролируемым динамическим поведением. ## Результаты Подробные эксперименты проводились на DREAM-данных для позыва и Libero-данных для видео-генерируемого управления. В результате, PoseDiff показала значительное улучшение в точности визуальной позыва по сравнению с предыдущими моделями. Для видео-генерируемого управления, PoseDiff показала значительное улучшение успешности задач, даже в строгих условиях оффлайн-режимов. Эти результаты подтверждают, что PoseDiff предоставляет сильную, эффективную и сцепленную модель для решения задач в области Embodied AI. ## Значимость Основное преимущество PoseDiff заключается в том, что она может решать одновременно задачи визуальной позыва и динамического управления в одной модели, что эффективно упрощает архитектуру и уменьшает сложность. Этот подход может быть применён в различных сценариях, включая робототехнику, роботизированные системы и видео-анализ. Его потенциал заключается в улучшении точности, эффективности и управляемости в задачах машинного обучения. ## Выводы PoseDiff представляет собой новый подход к решению задач визуальной позыва и динамического управления в рамках Embodied AI. Он предлагает е

Abstract

We present PoseDiff, a conditional diffusion model that unifies robot state estimation and control within a single framework. At its core, PoseDiff maps raw visual observations into structured robot states-such as 3D keypoints or joint angles-from a single RGB image, eliminating the need for multi-stage pipelines or auxiliary modalities. Building upon this foundation, PoseDiff extends naturally to video-to-action inverse dynamics: by conditioning on sparse video keyframes generated by world models, it produces smooth and continuous long-horizon action sequences through an overlap-averaging strategy. This unified design enables scalable and efficient integration of perception and control. On the DREAM dataset, PoseDiff achieves state-of-the-art accuracy and real-time performance for pose estimation. On Libero-Object manipulation tasks, it substantially improves success rates over existing inverse dynamics modules, even under strict offline settings. Together, these results show that PoseDiff provides a scalable, accurate, and efficient bridge between perception, planning, and control in embodied AI. The video visualization results can be found on the project page: https://haozhuo-zhang.github.io/PoseDiff-project-page/.

Ссылки и действия