PoseDiff: A Unified Diffusion Model Bridging Robot Pose Estimation and Video-to-Action Control
2509.24591v1
cs.RO, cs.AI
2025-10-01
Авторы:
Haozhuo Zhang, Michele Caprio, Jing Shao, Qiang Zhang, Jian Tang, Shanghang Zhang, Wei Pan
Резюме на русском
## Контекст
Одна из основных задач в области энд-то-энд искусственного интеллекта (Embodied AI) заключается в создании систем, которые могут эффективно объединить чувствительные и действительные модули для более широкого использования в таких задачах, как визуальная позыва и динамическое управление. Несмотря на появление многочисленных подходов к этим задачам, существуют проблемы, такие как низкая точность, высокая сложность внедрения, сложность в управлении, связанная с несколькими стадиями процесса. Существуют технические и эффективностьские ограничения. В этом контексте целью этой работы является разработка универсального подхода, который может объединить эти модули в единую систему, обеспечивая оптимальные результаты в области визуальной позыва и динамического управления.
## Метод
PoseDiff представляет собой универсальную систему, которая использует диффузионные модели для решения задач визуальной позыва и динамического управления. Основная идея заключается в том, чтобы объединить эти две задачи в одном решении. PoseDiff работает с помощью диффузионных моделей, которые позволяют построить структурированную модель роботских состояний (например, 3D-кейпоинтов или углов суставов) из однородного РВЖ-образа. Эта модель также решает задачу динамического управления путем генерирования движений в долгосрочном виде с помощью свёрточной архитектуры, которая синхронизирует видео-ключевые кадры с контролируемым динамическим поведением.
## Результаты
Подробные эксперименты проводились на DREAM-данных для позыва и Libero-данных для видео-генерируемого управления. В результате, PoseDiff показала значительное улучшение в точности визуальной позыва по сравнению с предыдущими моделями. Для видео-генерируемого управления, PoseDiff показала значительное улучшение успешности задач, даже в строгих условиях оффлайн-режимов. Эти результаты подтверждают, что PoseDiff предоставляет сильную, эффективную и сцепленную модель для решения задач в области Embodied AI.
## Значимость
Основное преимущество PoseDiff заключается в том, что она может решать одновременно задачи визуальной позыва и динамического управления в одной модели, что эффективно упрощает архитектуру и уменьшает сложность. Этот подход может быть применён в различных сценариях, включая робототехнику, роботизированные системы и видео-анализ. Его потенциал заключается в улучшении точности, эффективности и управляемости в задачах машинного обучения.
## Выводы
PoseDiff представляет собой новый подход к решению задач визуальной позыва и динамического управления в рамках Embodied AI. Он предлагает е
Abstract
We present PoseDiff, a conditional diffusion model that unifies robot state
estimation and control within a single framework. At its core, PoseDiff maps
raw visual observations into structured robot states-such as 3D keypoints or
joint angles-from a single RGB image, eliminating the need for multi-stage
pipelines or auxiliary modalities. Building upon this foundation, PoseDiff
extends naturally to video-to-action inverse dynamics: by conditioning on
sparse video keyframes generated by world models, it produces smooth and
continuous long-horizon action sequences through an overlap-averaging strategy.
This unified design enables scalable and efficient integration of perception
and control. On the DREAM dataset, PoseDiff achieves state-of-the-art accuracy
and real-time performance for pose estimation. On Libero-Object manipulation
tasks, it substantially improves success rates over existing inverse dynamics
modules, even under strict offline settings. Together, these results show that
PoseDiff provides a scalable, accurate, and efficient bridge between
perception, planning, and control in embodied AI. The video visualization
results can be found on the project page:
https://haozhuo-zhang.github.io/PoseDiff-project-page/.
Ссылки и действия
Дополнительные ресурсы: