LCMF: Lightweight Cross-Modality Mambaformer for Embodied Robotics VQA
2509.18576v1
cs.RO, cs.AI
2025-09-25
Авторы:
Zeyi Kang, Liang He, Yanxin Zhang, Zuheng Ming, Kaixing Zhao
Резюме на русском
## Контекст
Область исследования, называемая **Embodied Robotics Visual Question Answering (EQA)**, является ключевой в области **Embodied Intelligence**. Она ставит перед собой цель развития роботов, которые могут смешивать визуальные сигналы, текстовые команды и другие сенсорные данные для умных решений. Несмотря на прогресс, существуют технические проблемы, такие как эффективное объединение разных типов данных (например, видео и текст) и высокая стоимость вычислений в ресурс-ограниченных средах. Эти проблемы становятся ключевыми ограничениями для распространенного применения таких систем в реальных условиях. Наше исследование стремится решить эти проблемы, создав эффективную модель для отображения и обработки многомодальных сигналов.
## Метод
Мы предлагаем **LCMF (Lightweight Cross-Modality Mambaformer)**, основанную на модуле **Mamba**, которая включает **многоуровневый кросс-модальный механизм общего параметра**. Этот подход позволяет добиться эффективного объединения разных видов данных (например, видео и текста) благодаря параметрическому контролю. Мы также используем **Cross-Attention** и **Selective State Space Models (SSMs)**, чтобы добиться лучшего понимания и семантического синхронизации между модальностями. Эта архитектура обеспечивает высокую эффективность с выборочным параметрическим контролем, что позволяет решать задачи в ресурс-ограниченных средах.
## Результаты
Мы провели эксперименты для проверки эффективности нашей модели LCMF в задачах **Visual Question Answering (VQA)** и **Embodied Question Answering (EQA)**. Данные для экспериментов были получены из наборов данных, содержащих видео и текстовые команды. Модель LCMF показала **74.29% точность в VQA** и достигла **конкурентных результатов в EQA**, особенно в сравнении с другими моделями. Заметно, что наше решение потребляет **4.35 раз меньше вычислительных ресурсов (FLOPs)** и использует **меньше параметров**, чем другие модели с одинаковыми результатами.
## Значимость
Наша модель LCMF имеет широкие **применения в Human-Robot Interaction (HRI)**. Она может использоваться для развития роботов, которые взаимодействуют с людьми, понимают их команды и делают решения на основе многомодальных сигналов. Преимущества LCMF включают **высокую точность** и **низкую вычислительную стоимость**, что делает ее подходящей для ресурс-ограниченных сред, таких как мобильные роботы и умные дома. Этот подход может сильно повлиять на развитие **робототехники** и **интеллектуальных систем**.
## Выводы
Мы успешно разработали **LCMF**, модель с легковесной архитектурой, которая эффективно объединяет различные виды данных для многомодальных задач. Модель показала высокую точность в **VQA** и **EQA**, при этом значитель
Abstract
Multimodal semantic learning plays a critical role in embodied intelligence,
especially when robots perceive their surroundings, understand human
instructions, and make intelligent decisions. However, the field faces
technical challenges such as effective fusion of heterogeneous data and
computational efficiency in resource-constrained environments. To address these
challenges, this study proposes the lightweight LCMF cascaded attention
framework, introducing a multi-level cross-modal parameter sharing mechanism
into the Mamba module. By integrating the advantages of Cross-Attention and
Selective parameter-sharing State Space Models (SSMs), the framework achieves
efficient fusion of heterogeneous modalities and semantic complementary
alignment. Experimental results show that LCMF surpasses existing multimodal
baselines with an accuracy of 74.29% in VQA tasks and achieves competitive
mid-tier performance within the distribution cluster of Large Language Model
Agents (LLM Agents) in EQA video tasks. Its lightweight design achieves a
4.35-fold reduction in FLOPs relative to the average of comparable baselines
while using only 166.51M parameters (image-text) and 219M parameters
(video-text), providing an efficient solution for Human-Robot Interaction (HRI)
applications in resource-constrained scenarios with strong multimodal decision
generalization capabilities.
Ссылки и действия
Дополнительные ресурсы: