Optimal Sparsity of Mixture-of-Experts Language Models for Reasoning Tasks

2508.18672v1 cs.LG, cs.AI, cs.CL 2025-08-28
Авторы:

Taishi Nakamura, Satoki Ishikawa, Masaki Kawamura, Takumi Okamoto, Daisuke Nohara, Jun Suzuki, Rio Yokota

Резюме на русском

## Контекст Стремительно растущие объемы данных и требования к высокопроизводительным моделям обработки естественного языка (Natural Language Processing, NLP) породили класс моделей, таких как Mixture-of-Experts (MoE). Эти модели используют слои с выбором экспертов (expert-selection layers), которые позволяют увеличить мощность модели без линейного роста времени вычислений. Однако, несмотря на эффективность, существуют исследования, показывающие, что слишком высокая спарсинг (sparsity) может негативно сказаться на обучении и воспроизведении моделей. Мы исследуем, как спарсинг влияет на возможности моделей в двух дифференцирующихся режимах: запоминание (memorization) и рассуждение (reasoning). Особое внимание уделено параметрам ввода-вывода (input-output parameters) и стратегиям топ-$k$-routing, которые влияют на производительность на разных задачах. ## Метод Мы тренируем ряд моделей Mixture-of-Experts Transformers, которые отличаются в количестве параметров, активных экспертов и стратегиях топ-$k$-routing, при этом сохраняя одинаковый бюджет вычислений. Мы записываем показатели обучения и тестовой потерь, а также точность выполнения задач в зависимости от этих параметров. Эксперименты проводятся на двух типах бенчмарков: задач запоминания (memorization benchmarks) и задач рассуждения (reasoning benchmarks). Мы также изучаем, насколько могут помочь пост-обучение (post-training), GRPO (model-based reinforcement learning) и дополнительное тест-time вычислительное время для компенсирования негативного влияния слишком высокой спарсинга. ## Результаты Мы обнаружили, что при увеличении общего количества параметров модели происходит улучшение в задачах запоминания, что отражается на уменьшении обучающей потери. Однако, в случае задач рассуждения, мы наблюдаем, что продолжительное увеличение параметров может привести к регрессии во время тестирования, даже если обучающая потеря продолжает снижаться. Мы также установили, что изменение топ-$k$-routing оказывает малое влияние на модели, когда количество активных параметров не меняется. Дополнительные меры, такие как GRPO или дополнительные вычислительные ресурсы на этапе тестирования, не способны действенно исправить дефицит во время тестирования, вызванный слишком высокой спарсингой. ## Значимость Наши результаты имеют перспективу для оптимизации моделей Mixture-of-Experts в NLP, особенно в задачах рассуждения. Эти модели могут использоваться в области контекстной семантики, вопросов-ответов и трансляторских задач. Мы показали, что параметры ввода-вывода и стратегии топ-$k$-routing играют ключевую роль в регулировании производительности. Наша исследовательская модель открывает новые возможности для гибких и эффективных моделей, которые могут быть использованы в разли

Abstract

Empirical scaling laws have driven the evolution of large language models (LLMs), yet their coefficients shift whenever the model architecture or data pipeline changes. Mixture-of-Experts (MoE) models, now standard in state-of-the-art systems, introduce a new sparsity dimension that current dense-model frontiers overlook. We investigate how MoE sparsity influences two distinct capability regimes: memorization and reasoning. We train families of MoE Transformers that systematically vary total parameters, active parameters, and top-$k$ routing while holding the compute budget fixed. For every model we record pre-training loss, downstream task loss, and task accuracy, allowing us to separate the train-test generalization gap from the loss-accuracy gap. Memorization benchmarks improve monotonically with total parameters, mirroring training loss. By contrast, reasoning performance saturates and can even regress despite continued gains in both total parameters and training loss. Altering top-$k$ alone has little effect when active parameters are constant, and classic hyperparameters such as learning rate and initialization modulate the generalization gap in the same direction as sparsity. Neither post-training reinforcement learning (GRPO) nor extra test-time compute rescues the reasoning deficit of overly sparse models. Our model checkpoints, code and logs are open-source at https://github.com/rioyokotalab/optimal-sparsity.

Ссылки и действия