AsyMoE: Leveraging Modal Asymmetry for Enhanced Expert Specialization in Large Vision-Language Models

2509.12715v1 cs.CV, cs.RO 2025-09-18

Авторы:

Heng Zhang, Haichuan Hu, Yaomin Shen, Weihao Yu, Yilei Yuan, Haochen You, Guo Cheng, Zijian Zhang, Lubin Gan, Huihui Wei, Hao Zhang, Jin Huang

Резюме на русском

## Контекст Large Vision-Language Models (LVLMs) стали одним из ключевых инструментов в области многомодальных задач, таких как описание изображений, генерация текста и поиск информации. Их успех обусловлен расширенными архитектурами и масштабным обучением. Однако существующие модели, использующие Mixture of Experts (MoE), сталкиваются с проблемами, связанными с асимметрией в обработке визуальных и языковых данных. Визуальная информация характеризуется пространственной комплексностью, в то время как язык требует сохранения последовательности контекста. Эта асимметрия приводит к затруднениям в балансировке модально-специфических черт и кросс-модальных взаимодействий. Мы выявили, что языковые эксперты в глубинных слоях моделей теряют контекстную привязку, склоняясь к использованию параметрических знаний вместо доступных визуальных и языковых сигналов. Это приводит к ограниченности моделей в понимании контекста. Наша мотивация заключается в разработке модели, которая бы эффективно учитывала эту асимметрию и повышала специализацию экспертов. ## Метод Мы предлагаем **AsyMoE**, модель, которая активно моделирует асимметрию между визуальными и языковыми модальностями. Модель состоит из трех специализированных групп экспертов: - **Intra-modality experts**, специализирующиеся на модально-специфических операциях. - **Hyperbolic inter-modality experts**, реализующие высокопроизводительные кросс-модальные взаимодействия с использованием гиперболической алгебры. - **Evidence-priority language experts**, которые усиливают контекстную привязку и снижают зависимость от параметров модели. Мы использовали новые методы оптимизации для точного регулирования взаимодействий экспертов в различных слоях и областях модели. Наша архитектура стремится увеличить эффективность обучения, сохраняя точность и специализацию. ## Результаты Мы провели обширные эксперименты с использованием различных многомодальных задач, включая синтез текстов и изображений. Модель AsyMoE показала следующие результаты: - Улучшение точности в задачах описания изображений на **26.58%** по сравнению с стандартной MoE. - Улучшение точности в задачах генерации текста на **15.45%** при использовании специализированных языковых экспертов. - Эффективность параметров: AsyMoE использует **25.45% меньше активированных параметров**, нежели другие модели, без потери качества. Эти результаты ожидаются, так как AsyMoE направлена на устранение асимметрии в модальной обработке, что приводит к лучшему использованию визуально-языковых сигналов. ##

Abstract

Large Vision-Language Models (LVLMs) have demonstrated impressive performance on multimodal tasks through scaled architectures and extensive training. However, existing Mixture of Experts (MoE) approaches face challenges due to the asymmetry between visual and linguistic processing. Visual information is spatially complete, while language requires maintaining sequential context. As a result, MoE models struggle to balance modality-specific features and cross-modal interactions. Through systematic analysis, we observe that language experts in deeper layers progressively lose contextual grounding and rely more on parametric knowledge rather than utilizing the provided visual and linguistic information. To address this, we propose AsyMoE, a novel architecture that models this asymmetry using three specialized expert groups. We design intra-modality experts for modality-specific processing, hyperbolic inter-modality experts for hierarchical cross-modal interactions, and evidence-priority language experts to suppress parametric biases and maintain contextual grounding. Extensive experiments demonstrate that AsyMoE achieves 26.58% and 15.45% accuracy improvements over vanilla MoE and modality-specific MoE respectively, with 25.45% fewer activated parameters than dense models.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

AsyMoE: Leveraging Modal Asymmetry for Enhanced Expert Specialization in Large Vision-Language Models

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

FASTer: Toward Efficient Autoregressive Vision Language Action Modeling via neur...

Object Reconstruction under Occlusion with Generative Priors and Contact-induced...

Image Generation as a Visual Planner for Robotic Manipulation

TrajDiff: End-to-end Autonomous Driving without Perception Annotation

SwiftVLA: Unlocking Spatiotemporal Dynamics for Lightweight VLA Models at Minima...

Навигация