Towards a Comprehensive Scaling Law of Mixture-of-Experts

2509.23678v1 cs.LG, cs.AI, cs.CL 2025-10-01
Авторы:

Guoliang Zhao, Yuhan Fu, Shuaipeng Li, Xingwu Sun, Ruobing Xie, An Wang, Weidong Han, Zhen Yang, Weixuan Sun, Yudong Zhang, Cheng-zhong Xu, Di Wang, Jie Jiang

Резюме на русском

#### Контекст Микстов-экспертов (MoE) — это модели глубокого обучения, обладающие высокой эффективностью в обработке больших наборов данных за счет распределения вычислительной нагрузки на несколько подпространств экспертов. Их применение позволяет эффективно масштабировать модели, оптимизировать ресурсы и уменьшить затраты. Однако существующие законы масштабирования для разносторонных моделей не применимы к MoE, так как эти модели имеют уникальные характеристики, такие как нелинейное взаимодействие между факторами и их немонотонное влияние на производительность. Таким образом, требуется подробное изучение масштабирования MoE для построения удобных и эффективных моделей. #### Метод Мы предприняли систематическое разделение MoE-моделей на ключевые факторы, влияющие на их производительность. Эти факторы включают размер выборки (D), общий размер модели (N), активированный размер модели (Na), количество активных экспертов (G) и пропорцию общих экспертов (S). Для каждого фактора мы провели эксперименты, контролируя влияние каждого из них на модель. Эти исследования были объединены в широкую модель, учитывающую все факторы. Мы также исследовали теоретически оптимальные значения G, S и Na/N, а также оптимальные конфигурации с учетом практических ограничений. #### Результаты Мы провели 446 экспериментов для определения влияния каждого фактора на производительность модели. Наша модель позволила определить оптимальные значения G и S, которые не зависят от размера данных и архитектуры модели. Мы также обнаружили, что при увеличении размера модели (N), оптимальная пропорция активных экспертов (Na/N) становится более разредкой. Эти результаты позволяют оптимизировать конфигурацию MoE-моделей для максимальной эффективности. #### Значимость Наша работа имеет значительное значение для оптимизации разработки MoE-моделей. Мы предоставили гибкую и точную модель, которая может быть использована для предсказания лучших параметров для конкретных задач. Это включает в себя уменьшение затрат на обучение и использование ресурсов, благодаря точной оптимизации количества активных экспертов и их пропорций. Наше исследование также открывает путь к будущим исследованиям в области масштабирования моделей и их применений в различных областях, таких как текстовое машинное обучение и глубокое обучение. #### Выводы Мы представили новую модель для масштабирования MoE, учитывающую все ключевые факторы влияющие на производительность. Мы также получили оптимальные значения для активных экспертов и пропорции общих экспертов, которые могут

Abstract

Mixture-of-Experts (MoE) models have become the consensus approach for enabling parameter-efficient scaling and cost-effective deployment in large language models. However, existing scaling laws for dense models are inapplicable to MoE models, which stems from three critical challenges: the multiplicity of influencing factors, their intricate coupling relationships and the non-monotonic nature of their performance impacts. They collectively necessitate a fine-grained investigation into MoE-specific scaling laws. In this work, we perform a systematic decomposition of MoE settings, identifying five key factors that influence model performance from both size and structural perspectives (data size ($D$), total model size ($N$), activated model size ($N_a$), number of active experts ($G$) and the ratio of shared experts ($S$)). Specifically, we design $446$ controlled experiments to characterize their marginal effects, ultimately constructing a comprehensive and precise joint MoE scaling law that considers all essential factors. Furthermore, we derive the theoretically optimal and practically efficiency-aware optimal configurations for $G$, $S$ and $N_a/N$ with detailed analyses. Our results demonstrate that the optimal settings for $G$ and $S$ are independent of both the model architecture and data size. With the scaling of $N$, the optimal activation parameter ratio of $N_a/N$ becomes sparser. Our proposed MoE scaling law could function as an accurate and insightful guidance to facilitate future MoE model design and training.

Ссылки и действия