AsyMoE: Leveraging Modal Asymmetry for Enhanced Expert Specialization in Large Vision-Language Models
2509.12715v1
cs.CV, cs.RO
2025-09-18
Авторы:
Heng Zhang, Haichuan Hu, Yaomin Shen, Weihao Yu, Yilei Yuan, Haochen You, Guo Cheng, Zijian Zhang, Lubin Gan, Huihui Wei, Hao Zhang, Jin Huang
Резюме на русском
## Контекст
Large Vision-Language Models (LVLMs) стали одним из ключевых инструментов в области многомодальных задач, таких как описание изображений, генерация текста и поиск информации. Их успех обусловлен расширенными архитектурами и масштабным обучением. Однако существующие модели, использующие Mixture of Experts (MoE), сталкиваются с проблемами, связанными с асимметрией в обработке визуальных и языковых данных. Визуальная информация характеризуется пространственной комплексностью, в то время как язык требует сохранения последовательности контекста. Эта асимметрия приводит к затруднениям в балансировке модально-специфических черт и кросс-модальных взаимодействий. Мы выявили, что языковые эксперты в глубинных слоях моделей теряют контекстную привязку, склоняясь к использованию параметрических знаний вместо доступных визуальных и языковых сигналов. Это приводит к ограниченности моделей в понимании контекста. Наша мотивация заключается в разработке модели, которая бы эффективно учитывала эту асимметрию и повышала специализацию экспертов.
## Метод
Мы предлагаем **AsyMoE**, модель, которая активно моделирует асимметрию между визуальными и языковыми модальностями. Модель состоит из трех специализированных групп экспертов:
- **Intra-modality experts**, специализирующиеся на модально-специфических операциях.
- **Hyperbolic inter-modality experts**, реализующие высокопроизводительные кросс-модальные взаимодействия с использованием гиперболической алгебры.
- **Evidence-priority language experts**, которые усиливают контекстную привязку и снижают зависимость от параметров модели.
Мы использовали новые методы оптимизации для точного регулирования взаимодействий экспертов в различных слоях и областях модели. Наша архитектура стремится увеличить эффективность обучения, сохраняя точность и специализацию.
## Результаты
Мы провели обширные эксперименты с использованием различных многомодальных задач, включая синтез текстов и изображений. Модель AsyMoE показала следующие результаты:
- Улучшение точности в задачах описания изображений на **26.58%** по сравнению с стандартной MoE.
- Улучшение точности в задачах генерации текста на **15.45%** при использовании специализированных языковых экспертов.
- Эффективность параметров: AsyMoE использует **25.45% меньше активированных параметров**, нежели другие модели, без потери качества.
Эти результаты ожидаются, так как AsyMoE направлена на устранение асимметрии в модальной обработке, что приводит к лучшему использованию визуально-языковых сигналов.
##
Abstract
Large Vision-Language Models (LVLMs) have demonstrated impressive performance
on multimodal tasks through scaled architectures and extensive training.
However, existing Mixture of Experts (MoE) approaches face challenges due to
the asymmetry between visual and linguistic processing. Visual information is
spatially complete, while language requires maintaining sequential context. As
a result, MoE models struggle to balance modality-specific features and
cross-modal interactions. Through systematic analysis, we observe that language
experts in deeper layers progressively lose contextual grounding and rely more
on parametric knowledge rather than utilizing the provided visual and
linguistic information. To address this, we propose AsyMoE, a novel
architecture that models this asymmetry using three specialized expert groups.
We design intra-modality experts for modality-specific processing, hyperbolic
inter-modality experts for hierarchical cross-modal interactions, and
evidence-priority language experts to suppress parametric biases and maintain
contextual grounding. Extensive experiments demonstrate that AsyMoE achieves
26.58% and 15.45% accuracy improvements over vanilla MoE and modality-specific
MoE respectively, with 25.45% fewer activated parameters than dense models.
Ссылки и действия
Дополнительные ресурсы: