Multi-Modal Manipulation via Multi-Modal Policy Consensus

2509.23468v1 cs.RO, cs.AI, cs.LG 2025-10-01
Авторы:

Haonan Chen, Jiaming Xu, Hongyu Chen, Kaiwen Hong, Binghao Huang, Chaoqi Liu, Jiayuan Mao, Yunzhu Li, Yilun Du, Katherine Driggs-Campbell

Резюме на русском

## Контекст Роботическая манипуляция требует эффективного интегрирования различных видов сенсорной информации, чтобы обеспечить стабильность и точность действий. Однако существующие подходы, такие как конкатенация фичей, часто оказываются неэффективными. Доминирующие модальности, такие как визуальная, могут подавлять менее заметные, но критичные сигналы, такие как тактильные. Более того, существующие модели не могут гибко приспособиться к новым модальностям или отсутствию существующих без переучения. Это приводит к неэффективности и нестабильности при мультимодальном манипулировании. Наша модель предлагает решение этой проблемы, используя многомодальную архитектуру, которая разделяет политику на отдельные модели для каждой модальности и использует адаптивный механизм для объединения их вкладов. ## Метод Мы предлагаем мультимодальную модель, основанную на диффузионных моделях, каждая из который отвечает за вывод одной конкретной модальности (например, визуальная или тактильная). Эти модели объединяются с помощью роутера, который вычисляет веса для каждой модальности в зависимости от задачи и условий. Это позволяет модели адаптироваться к новым или отсутствующим модальностям без необходимости переучиваться. Мы также используем аппаратные модели для симуляционных и реальных экспериментов, чтобы проверить эффективность наших подходов. ## Результаты В симуляционных экспериментах на RLBench, наши результаты показывают существенное превосходство над базовыми методами конкатенации фичей, особенно в задачах, требующих мультимодального разума. Мы также провели ряд реальной роботической манипуляции, включая задачи, такие как п selecting objects in clutter, in-hand spoon reorientation, и puzzle insertion. Модель показала высокую устойчивость к физическим помехам и помехам в сенсоре, что демонстрирует надежность в реальных условиях. Был проведен анализ важности модальностей, который показал, что модель адаптирует веса модальностей в зависимости от задачи и условий, чтобы максимально эффективно использовать информацию. ## Значимость Наш подход имеет широкие применения в области роботического манипулирования, особенно в задачах, требующих точности и реагирования на многочисленные сенсорные данные. Он предлагает значительные преимущества, такие как высокая гибкость, эффективность и устойчивость. Мы предоставляем потенциал для перевода этого подхода в промышленность, а также для расширения возможностей в реальном времени для более точного манипулирования, которое может иметь значительный вклад в развитие робототехники. ## Выводы Мы представили многомодальный подход к

Abstract

Effectively integrating diverse sensory modalities is crucial for robotic manipulation. However, the typical approach of feature concatenation is often suboptimal: dominant modalities such as vision can overwhelm sparse but critical signals like touch in contact-rich tasks, and monolithic architectures cannot flexibly incorporate new or missing modalities without retraining. Our method factorizes the policy into a set of diffusion models, each specialized for a single representation (e.g., vision or touch), and employs a router network that learns consensus weights to adaptively combine their contributions, enabling incremental of new representations. We evaluate our approach on simulated manipulation tasks in {RLBench}, as well as real-world tasks such as occluded object picking, in-hand spoon reorientation, and puzzle insertion, where it significantly outperforms feature-concatenation baselines on scenarios requiring multimodal reasoning. Our policy further demonstrates robustness to physical perturbations and sensor corruption. We further conduct perturbation-based importance analysis, which reveals adaptive shifts between modalities.

Ссылки и действия