Elastic MoE: Unlocking the Inference-Time Scalability of Mixture-of-Experts

2509.21892v1 cs.CL, cs.AI, cs.LG 2025-09-30
Авторы:

Naibin Gu, Zhenyu Zhang, Yuchen Feng, Yilong Chen, Peng Fu, Zheng Lin, Shuohuan Wang, Yu Sun, Hua Wu, Weiping Wang, Haifeng Wang

Резюме на русском

#### Контекст Микстура экспертов (Mixture-of-Experts, MoE) — это модель глубокого обучения, широко применяемая в задачах классификации и регрессии. В рамках этой модели выделяются несколько экспертов, каждый из которых специализируется на разных подзадачах. Однако во время обучения и инференса активируется только ограниченное число экспертов. Несмотря на очевидную идею, что увеличение числа активированных экспертов при инференсе должно улучшить качество модели, на практике это приводит к деградации результатов, которая происходит из-за несостоятельного обучения экспертов к оптимальной синергии. Это ограничение ставит под сомнение эффективность MoE в высокомасштабных сценариях. Наша мотивация заключается в развитии нового подхода, который позволит эффективно развивать модель MoE во время инференса, не прибегая к дополнительному обучению. #### Метод Мы предлагаем Elastic Mixture-of-Experts (EMoE) — новую методологию, которая расширяет возможности MoE за счет увеличения числа активированных экспертов на этапе инференса. Метод EMoE включает два ключевых элемента: 1. **Синергическое обучение экспертов**: эксперты обучаются так, чтобы оптимально работать не только в изоляции, но и в сочетании с другими экспертами. Это достигается путем введения дополнительных функционалов в учебный процесс, которые стимулируют коммуникативность экспертов. 2. **Улучшение механизма маршрутизации (Router)**: мы внедрили дополнительные меры, нацеленные на повышение качества выбора экспертов во время инференса. Это позволяет модели более точно адаптироваться к различным задачам и вычислительным ограничениям. #### Результаты Мы провели эксперименты на различных данных, включая образцы из реальных задач классификации и регрессии. Наша модель EMoE показала возможность расширения диапазона мощности модели при инференсе до 2-3 раз по сравнению с обучающим режимом. Это было достигнуто без ухудшения качества или увеличения обучающего времени. Также было проведено сравнение с другими моделями MoE, включая стандартный алгоритм, в котором при инференсе можно активировать больше экспертов. Наши результаты показали, что EMoE обеспечивает стабильно высокое качество и более широкий диапазон эффективности. #### Значимость EMoE открывает новые горизонты для применения MoE в высокомасштабных сценариях. Она позволяет эффективно использовать ресурсы вычисления во время инференса, не ухудшая качество решения задачи. Это может быть применено в сферах, где требуется высокая точность модели, но при этом есть ограничения на вычислительные мощности. Например, в мобильных приложениях или реальном времени, где быстродействие критич

Abstract

Mixture-of-Experts (MoE) models typically fix the number of activated experts $k$ at both training and inference. Intuitively, activating more experts at inference $k'$ (where $k'> k$) means engaging a larger set of model parameters for the computation and thus is expected to improve performance. However, contrary to this intuition, we find the scaling range to be so narrow that performance begins to degrade rapidly after only a slight increase in the number of experts. Further investigation reveals that this degradation stems from a lack of learned collaboration among experts. To address this, we introduce Elastic Mixture-of-Experts (EMoE), a novel training framework that enables MoE models to scale the number of activated experts at inference without incurring additional training overhead. By simultaneously training experts to collaborate in diverse combinations and encouraging the router for high-quality selections, EMoE ensures robust performance across computational budgets at inference. We conduct extensive experiments on various MoE settings. Our results show that EMoE significantly expands the effective performance-scaling range, extending it to as much as 2-3$\times$ the training-time $k$, while also pushing the model's peak performance to a higher level.

Ссылки и действия