CAMERA: Multi-Matrix Joint Compression for MoE Models via Micro-Expert Redundancy Analysis
2508.02322v1
cs.CL, cs.LG
2025-08-09
Авторы:
Yuzhuang Xu, Xu Han, Yuanchi Zhang, Yixuan Wang, Yijun Liu, Shiyu Ji, Qingfu Zhu, Wanxiang Che
Резюме на русском
**Резюме**
Large Language Models (LLMs) с Mixture-of-Experts (MoE) архитектурой характеризуются высокой производительностью при увеличении параметров, но столкнуются с высокими затратами на вычисления и хранение. Однако повышение производительности с ростом числа экспертов не пропорционально, что создает проблему эффективности. В данной работе мы предлагаем CAMERA — новую технику, основанную на анализе микро-экспертов, которые представляют собой более тонкую единицу сжатия, распространяющуюся на несколько матриц. Мы разработали CAMERA-P — фреймворк для удаления микро-экспертов, а также CAMERA-Q — метод смешанного типа для эффективного представления микро-экспертов. Наши эксперименты показали, что CAMERA-P превосходит существующие подходы в сжатии при разных отношениях удаления экспертов, а CAMERA-Q демонстрирует эффективность при существенном уменьшении точности. Наши результаты подтверждают то, что CAMERA может эффективно анализировать и сжимать модели, такие как Qwen2-57B-A14B, в значительно меньшем времени по сравнению с предыдущими методами.
Abstract
Large Language Models (LLMs) with Mixture-of-Experts (MoE) architectures are
distinguished by their strong performance scaling with increasing parameters
across a wide range of tasks, yet they also suffer from substantial
computational and storage overheads. Notably, the performance gains of MoE
models do not scale proportionally with the growth in expert parameters. While
prior works attempt to reduce parameters via expert-level pruning, merging, or
decomposition, they still suffer from challenges in both performance and
computational efficiency. In this paper, we address these challenges by
introducing micro-expert as a finer-grained compression unit that spans across
matrices. We first establish a more fundamental perspective, viewing MoE layers
as mixtures of micro-experts, and present CAMERA, a lightweight and
training-free framework for identifying micro-expert redundancy. Our analysis
uncovers significant variance in micro-expert contributions during decoding.
Based on this insight, we further propose CAMERA-P, a structured micro-expert
pruning framework, and CAMERA-Q, a mixed-precision quantization idea designed
for micro-experts. Extensive experiments on nine downstream tasks show that
CAMERA-P consistently outperforms strong baselines under pruning ratios ranging
from 20% to 60%. Furthermore, CAMERA-Q achieves superior results under
aggressive 2-bit quantization, surpassing existing matrix- and channel-level
ideas. Notably, our method enables complete micro-expert analysis of
Qwen2-57B-A14B in less than 5 minutes on a single NVIDIA A100-40GB GPU.
Ссылки и действия
Дополнительные ресурсы: