Multi-Modal Manipulation via Multi-Modal Policy Consensus
2509.23468v1
cs.RO, cs.AI, cs.LG
2025-10-01
Авторы:
Haonan Chen, Jiaming Xu, Hongyu Chen, Kaiwen Hong, Binghao Huang, Chaoqi Liu, Jiayuan Mao, Yunzhu Li, Yilun Du, Katherine Driggs-Campbell
Резюме на русском
## Контекст
Роботическая манипуляция требует эффективного интегрирования различных видов сенсорной информации, чтобы обеспечить стабильность и точность действий. Однако существующие подходы, такие как конкатенация фичей, часто оказываются неэффективными. Доминирующие модальности, такие как визуальная, могут подавлять менее заметные, но критичные сигналы, такие как тактильные. Более того, существующие модели не могут гибко приспособиться к новым модальностям или отсутствию существующих без переучения. Это приводит к неэффективности и нестабильности при мультимодальном манипулировании. Наша модель предлагает решение этой проблемы, используя многомодальную архитектуру, которая разделяет политику на отдельные модели для каждой модальности и использует адаптивный механизм для объединения их вкладов.
## Метод
Мы предлагаем мультимодальную модель, основанную на диффузионных моделях, каждая из который отвечает за вывод одной конкретной модальности (например, визуальная или тактильная). Эти модели объединяются с помощью роутера, который вычисляет веса для каждой модальности в зависимости от задачи и условий. Это позволяет модели адаптироваться к новым или отсутствующим модальностям без необходимости переучиваться. Мы также используем аппаратные модели для симуляционных и реальных экспериментов, чтобы проверить эффективность наших подходов.
## Результаты
В симуляционных экспериментах на RLBench, наши результаты показывают существенное превосходство над базовыми методами конкатенации фичей, особенно в задачах, требующих мультимодального разума. Мы также провели ряд реальной роботической манипуляции, включая задачи, такие как п selecting objects in clutter, in-hand spoon reorientation, и puzzle insertion. Модель показала высокую устойчивость к физическим помехам и помехам в сенсоре, что демонстрирует надежность в реальных условиях. Был проведен анализ важности модальностей, который показал, что модель адаптирует веса модальностей в зависимости от задачи и условий, чтобы максимально эффективно использовать информацию.
## Значимость
Наш подход имеет широкие применения в области роботического манипулирования, особенно в задачах, требующих точности и реагирования на многочисленные сенсорные данные. Он предлагает значительные преимущества, такие как высокая гибкость, эффективность и устойчивость. Мы предоставляем потенциал для перевода этого подхода в промышленность, а также для расширения возможностей в реальном времени для более точного манипулирования, которое может иметь значительный вклад в развитие робототехники.
## Выводы
Мы представили многомодальный подход к
Abstract
Effectively integrating diverse sensory modalities is crucial for robotic
manipulation. However, the typical approach of feature concatenation is often
suboptimal: dominant modalities such as vision can overwhelm sparse but
critical signals like touch in contact-rich tasks, and monolithic architectures
cannot flexibly incorporate new or missing modalities without retraining. Our
method factorizes the policy into a set of diffusion models, each specialized
for a single representation (e.g., vision or touch), and employs a router
network that learns consensus weights to adaptively combine their
contributions, enabling incremental of new representations. We evaluate our
approach on simulated manipulation tasks in {RLBench}, as well as real-world
tasks such as occluded object picking, in-hand spoon reorientation, and puzzle
insertion, where it significantly outperforms feature-concatenation baselines
on scenarios requiring multimodal reasoning. Our policy further demonstrates
robustness to physical perturbations and sensor corruption. We further conduct
perturbation-based importance analysis, which reveals adaptive shifts between
modalities.
Ссылки и действия
Дополнительные ресурсы: