LCMF: Lightweight Cross-Modality Mambaformer for Embodied Robotics VQA

2509.18576v1 cs.RO, cs.AI 2025-09-25

Авторы:

Zeyi Kang, Liang He, Yanxin Zhang, Zuheng Ming, Kaixing Zhao

Резюме на русском

## Контекст Область исследования, называемая **Embodied Robotics Visual Question Answering (EQA)**, является ключевой в области **Embodied Intelligence**. Она ставит перед собой цель развития роботов, которые могут смешивать визуальные сигналы, текстовые команды и другие сенсорные данные для умных решений. Несмотря на прогресс, существуют технические проблемы, такие как эффективное объединение разных типов данных (например, видео и текст) и высокая стоимость вычислений в ресурс-ограниченных средах. Эти проблемы становятся ключевыми ограничениями для распространенного применения таких систем в реальных условиях. Наше исследование стремится решить эти проблемы, создав эффективную модель для отображения и обработки многомодальных сигналов. ## Метод Мы предлагаем **LCMF (Lightweight Cross-Modality Mambaformer)**, основанную на модуле **Mamba**, которая включает **многоуровневый кросс-модальный механизм общего параметра**. Этот подход позволяет добиться эффективного объединения разных видов данных (например, видео и текста) благодаря параметрическому контролю. Мы также используем **Cross-Attention** и **Selective State Space Models (SSMs)**, чтобы добиться лучшего понимания и семантического синхронизации между модальностями. Эта архитектура обеспечивает высокую эффективность с выборочным параметрическим контролем, что позволяет решать задачи в ресурс-ограниченных средах. ## Результаты Мы провели эксперименты для проверки эффективности нашей модели LCMF в задачах **Visual Question Answering (VQA)** и **Embodied Question Answering (EQA)**. Данные для экспериментов были получены из наборов данных, содержащих видео и текстовые команды. Модель LCMF показала **74.29% точность в VQA** и достигла **конкурентных результатов в EQA**, особенно в сравнении с другими моделями. Заметно, что наше решение потребляет **4.35 раз меньше вычислительных ресурсов (FLOPs)** и использует **меньше параметров**, чем другие модели с одинаковыми результатами. ## Значимость Наша модель LCMF имеет широкие **применения в Human-Robot Interaction (HRI)**. Она может использоваться для развития роботов, которые взаимодействуют с людьми, понимают их команды и делают решения на основе многомодальных сигналов. Преимущества LCMF включают **высокую точность** и **низкую вычислительную стоимость**, что делает ее подходящей для ресурс-ограниченных сред, таких как мобильные роботы и умные дома. Этот подход может сильно повлиять на развитие **робототехники** и **интеллектуальных систем**. ## Выводы Мы успешно разработали **LCMF**, модель с легковесной архитектурой, которая эффективно объединяет различные виды данных для многомодальных задач. Модель показала высокую точность в **VQA** и **EQA**, при этом значитель

Abstract

Multimodal semantic learning plays a critical role in embodied intelligence, especially when robots perceive their surroundings, understand human instructions, and make intelligent decisions. However, the field faces technical challenges such as effective fusion of heterogeneous data and computational efficiency in resource-constrained environments. To address these challenges, this study proposes the lightweight LCMF cascaded attention framework, introducing a multi-level cross-modal parameter sharing mechanism into the Mamba module. By integrating the advantages of Cross-Attention and Selective parameter-sharing State Space Models (SSMs), the framework achieves efficient fusion of heterogeneous modalities and semantic complementary alignment. Experimental results show that LCMF surpasses existing multimodal baselines with an accuracy of 74.29% in VQA tasks and achieves competitive mid-tier performance within the distribution cluster of Large Language Model Agents (LLM Agents) in EQA video tasks. Its lightweight design achieves a 4.35-fold reduction in FLOPs relative to the average of comparable baselines while using only 166.51M parameters (image-text) and 219M parameters (video-text), providing an efficient solution for Human-Robot Interaction (HRI) applications in resource-constrained scenarios with strong multimodal decision generalization capabilities.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

LCMF: Lightweight Cross-Modality Mambaformer for Embodied Robotics VQA

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Open-Ended Goal Inference through Actions and Language for Human-Robot Collabora...

Using Machine Learning to Take Stay-or-Go Decisions in Data-driven Drone Mission...

CRAFT-E: A Neuro-Symbolic Framework for Embodied Affordance Grounding

World Models for Autonomous Navigation of Terrestrial Robots from LIDAR Observat...

A Learning-based Control Methodology for Transitioning VTOL UAVs

Навигация