Dynamic Experts Search: Enhancing Reasoning in Mixture-of-Experts LLMs at Test Time
2509.22572v1
cs.AI, cs.CL, cs.LG
2025-09-30
Авторы:
Yixuan Han, Fan Ma, Ruijie Quan, Yi Yang
Резюме на русском
## Контекст
Модели языка на основе Mixture-of-Experts (MoE) позволяют обрабатывать большие объемы данных, обладая высокой эффективностью и точностью в решении различных задач. Однако, несмотря на их мощь, эти модели все еще сталкиваются с проблемами в логической рассуждении, особенно при использовании Test-Time Scaling (TTS). TTS позволяет увеличить вычислительные ресурсы во время выполнения, чтобы улучшить результаты модели. Несмотря на это, существующие подходы к TTS ориентированы на уровне выходных данных и не учитывают архитектуру модели. В работе обнаружено, что количество активированных экспертов в MoE моделях может способствовать разнообразию решений. Это открывает возможность использовать новую стратегию, Dynamic Experts Search (DES), для динамического управления активным количеством экспертов на этапе выполнения. DES способствует улучшению точности и стабильности решений в различных задачах, включая математические, программирование и семантические задачи. Это подтверждает важность архитектурно-ориентированного подхода в TTS и показывает, как можно улучшить рассуждение в LLMs.
## Метод
Dynamic Experts Search (DES) — это стратегия, ориентированная на динамическое управление количеством активных экспертов в модели Mixture-of-Experts (MoE) во время выполнения. DES включает два основных компонента: (1) Dynamic MoE — модификация механизма активации экспертов, которая позволяет напрямую управлять количеством активных экспертов во время выполнения, что приводит к разным решениям, без дополнительных затрат. (2) Expert Configuration Inheritance — механизм, который пропускает количество активных экспертов в рамках одной логической цепочки, но дает возможность изменять количество экспертов в других реализациях одной задачи. Это позволяет сбалансировать две важные характеристики: стабильность решений и разнообразие. DES модифицирует архитектуру MoE во время выполнения, чтобы улучшить результаты в задачах, требующих высокого уровня логического рассуждения, без значительных изменений в основной модели.
## Результаты
Чтобы проверить эффективность DES, проведены тщательные эксперименты на различных моделях MoE, включая GLaM и Chinchilla, а также на различных специализированных подсистемах. Основные бенчмарки, использованные в экспериментах, включали задачи математического моделирования, программирования и семантического понимания. Результаты показали, что DES повышает точность решений и улучшает стабильность в сравнении с традиционными TTS-методовыми подходами. Также были проведены эксперименты с различными наборами данных для математических задач и программирования. В результате, DES демонстрирует превосходство в области логических рассуждений, стаб
Abstract
Test-Time Scaling (TTS) enhances the reasoning ability of large language
models (LLMs) by allocating additional computation during inference. However,
existing approaches primarily rely on output-level sampling while overlooking
the role of model architecture. In mainstream Mixture-of-Experts (MoE) LLMs, we
observe that varying the number of activated experts yields complementary
solution sets with stable accuracy, revealing a new and underexplored source of
diversity. Motivated by this observation, we propose Dynamic Experts Search
(DES), a TTS strategy that elevates expert activation into a controllable
dimension of the search space. DES integrates two key components: (1) Dynamic
MoE, which enables direct control of expert counts during inference to generate
diverse reasoning trajectories without additional cost; and (2) Expert
Configuration Inheritance, which preserves consistent expert counts within a
reasoning path while varying them across runs, thereby balancing stability and
diversity throughout the search. Extensive experiments across MoE
architectures, verifiers and reasoning benchmarks (i.e., math, code and
knowledge) demonstrate that DES reliably outperforms TTS baselines, enhancing
accuracy and stability without additional cost. These results highlight DES as
a practical and scalable form of architecture-aware TTS, illustrating how
structural flexibility in modern LLMs can advance reasoning.
Ссылки и действия
Дополнительные ресурсы: