Towards a Comprehensive Scaling Law of Mixture-of-Experts
2509.23678v1
cs.LG, cs.AI, cs.CL
2025-10-01
Авторы:
Guoliang Zhao, Yuhan Fu, Shuaipeng Li, Xingwu Sun, Ruobing Xie, An Wang, Weidong Han, Zhen Yang, Weixuan Sun, Yudong Zhang, Cheng-zhong Xu, Di Wang, Jie Jiang
Резюме на русском
#### Контекст
Микстов-экспертов (MoE) — это модели глубокого обучения, обладающие высокой эффективностью в обработке больших наборов данных за счет распределения вычислительной нагрузки на несколько подпространств экспертов. Их применение позволяет эффективно масштабировать модели, оптимизировать ресурсы и уменьшить затраты. Однако существующие законы масштабирования для разносторонных моделей не применимы к MoE, так как эти модели имеют уникальные характеристики, такие как нелинейное взаимодействие между факторами и их немонотонное влияние на производительность. Таким образом, требуется подробное изучение масштабирования MoE для построения удобных и эффективных моделей.
#### Метод
Мы предприняли систематическое разделение MoE-моделей на ключевые факторы, влияющие на их производительность. Эти факторы включают размер выборки (D), общий размер модели (N), активированный размер модели (Na), количество активных экспертов (G) и пропорцию общих экспертов (S). Для каждого фактора мы провели эксперименты, контролируя влияние каждого из них на модель. Эти исследования были объединены в широкую модель, учитывающую все факторы. Мы также исследовали теоретически оптимальные значения G, S и Na/N, а также оптимальные конфигурации с учетом практических ограничений.
#### Результаты
Мы провели 446 экспериментов для определения влияния каждого фактора на производительность модели. Наша модель позволила определить оптимальные значения G и S, которые не зависят от размера данных и архитектуры модели. Мы также обнаружили, что при увеличении размера модели (N), оптимальная пропорция активных экспертов (Na/N) становится более разредкой. Эти результаты позволяют оптимизировать конфигурацию MoE-моделей для максимальной эффективности.
#### Значимость
Наша работа имеет значительное значение для оптимизации разработки MoE-моделей. Мы предоставили гибкую и точную модель, которая может быть использована для предсказания лучших параметров для конкретных задач. Это включает в себя уменьшение затрат на обучение и использование ресурсов, благодаря точной оптимизации количества активных экспертов и их пропорций. Наше исследование также открывает путь к будущим исследованиям в области масштабирования моделей и их применений в различных областях, таких как текстовое машинное обучение и глубокое обучение.
#### Выводы
Мы представили новую модель для масштабирования MoE, учитывающую все ключевые факторы влияющие на производительность. Мы также получили оптимальные значения для активных экспертов и пропорции общих экспертов, которые могут
Abstract
Mixture-of-Experts (MoE) models have become the consensus approach for
enabling parameter-efficient scaling and cost-effective deployment in large
language models. However, existing scaling laws for dense models are
inapplicable to MoE models, which stems from three critical challenges: the
multiplicity of influencing factors, their intricate coupling relationships and
the non-monotonic nature of their performance impacts. They collectively
necessitate a fine-grained investigation into MoE-specific scaling laws. In
this work, we perform a systematic decomposition of MoE settings, identifying
five key factors that influence model performance from both size and structural
perspectives (data size ($D$), total model size ($N$), activated model size
($N_a$), number of active experts ($G$) and the ratio of shared experts ($S$)).
Specifically, we design $446$ controlled experiments to characterize their
marginal effects, ultimately constructing a comprehensive and precise joint MoE
scaling law that considers all essential factors. Furthermore, we derive the
theoretically optimal and practically efficiency-aware optimal configurations
for $G$, $S$ and $N_a/N$ with detailed analyses. Our results demonstrate that
the optimal settings for $G$ and $S$ are independent of both the model
architecture and data size. With the scaling of $N$, the optimal activation
parameter ratio of $N_a/N$ becomes sparser. Our proposed MoE scaling law could
function as an accurate and insightful guidance to facilitate future MoE model
design and training.
Ссылки и действия
Дополнительные ресурсы: