M4Diffuser: Multi-View Diffusion Policy with Manipulability-Aware Control for Robust Mobile Manipulation
2509.14980v1
cs.RO, cs.AI, cs.CV
2025-09-20
Авторы:
Ju Dong, Lei Zhang, Liding Zhang, Yao Ling, Yu Fu, Kaixin Bai, Zoltán-Csaba Márton, Zhenshan Bing, Zhaopeng Chen, Alois Christian Knoll, Jianwei Zhang
Резюме на русском
## Контекст
Мобильная манипуляция представляет собой сложную задачу, требующую одновременного управления мобильной базой и роботом-роботом, а также высокого уровня взаимодействия с окружающим миром. Для эффективного выполнения таких задач необходимы системы, которые объединяют решение задач визуального распознавания, многозначного распознавания и эффективного управления. Несмотря на развитие технологий, существующие подходы часто сталкиваются с ограниченными полями обзора, недостаточной проникновенностью в труднодоступные области и недостаточной универсальностью в нестандартных ситуациях. Также, классические контроллеры, хотя являются стабильными, часто причиняют проблемы с эффективностью и манипулируемостью вблизи сингулярных точек. Данные проблемы требуют развития современных алгоритмов, которые объединяют несколько типов сенсорных данных и могут обеспечить долгосрочную устойчивость и эффективность в нестандартных условиях.
## Метод
M4Diffuser представляет собой гибридный фреймворк, который совмещает Multi-View Diffusion Policy (MVDP) с Reduced and Manipulability-aware QP (ReM-QP) контроллером. Многопросмотровой диффузионный политик применяет собственные исходные данные и сведения, полученные с разных камер (относительные и глобальные), для построения целей задач для манипулятора в мировой системе координат. Эти высокоуровневые цели реализуются через ReM-QP, который устраняет ненужные слабые переменные для повышения производительности и включает манипулируемость-связанные предпочтения, чтобы повысить устойчивость вблизи сингулярных точек. Наш подход позволяет получить более оптимальные решения с учетом многообразия ситуаций, обеспечивая эффективность и надежность в любых условиях.
## Результаты
Мы проводили обширные эксперименты, используя как симуляционные, так и реальные условия. Наши тестовые сценарии включали задачи мобильной манипуляции в разных условиях, во включая обстановку, требующую совместного управления мобильной базой и роботом-роботом. Результаты показали, что M4Diffuser достигает 7 до 56 процентов выше успешности и уменьшает количество соударений на 3 до 31 процентов в сравнении с базовыми подходами. Это показывает, что наш подход обеспечивает эффективную координацию всего тела системы, высокую универсальность и очень высокую устойчивость в работе с неизвестными задачами.
## Значимость
Мы видим применение M4Diffuser в различных областях, включая промышленность, домохозяйство, медицину и прочие сферы, где требуется уверенность и надежность в мобильной манипуляции. Наш подход
Abstract
Mobile manipulation requires the coordinated control of a mobile base and a
robotic arm while simultaneously perceiving both global scene context and
fine-grained object details. Existing single-view approaches often fail in
unstructured environments due to limited fields of view, exploration, and
generalization abilities. Moreover, classical controllers, although stable,
struggle with efficiency and manipulability near singularities. To address
these challenges, we propose M4Diffuser, a hybrid framework that integrates a
Multi-View Diffusion Policy with a novel Reduced and Manipulability-aware QP
(ReM-QP) controller for mobile manipulation. The diffusion policy leverages
proprioceptive states and complementary camera perspectives with both
close-range object details and global scene context to generate task-relevant
end-effector goals in the world frame. These high-level goals are then executed
by the ReM-QP controller, which eliminates slack variables for computational
efficiency and incorporates manipulability-aware preferences for robustness
near singularities. Comprehensive experiments in simulation and real-world
environments show that M4Diffuser achieves 7 to 56 percent higher success rates
and reduces collisions by 3 to 31 percent over baselines. Our approach
demonstrates robust performance for smooth whole-body coordination, and strong
generalization to unseen tasks, paving the way for reliable mobile manipulation
in unstructured environments. Details of the demo and supplemental material are
available on our project website https://sites.google.com/view/m4diffuser.
Ссылки и действия
Дополнительные ресурсы: