Parameter-Efficient Routed Fine-Tuning: Mixture-of-Experts Demands Mixture of Adaptation Modules
2508.02587v1
cs.LG, cs.AI, cs.CL
2025-08-09
Авторы:
Yilun Liu, Yunpu Ma, Yuetian Lu, Shuo Chen, Zifeng Ding, Volker Tresp
Резюме на русском
Многоэкспертные модели (MoE) используют динамический механизм маршрутизации для распределения задач между специализированными экспертами, что позволяет эффективно оптимизировать их обучение и использование. Однако существующие стратегии Parameter-Efficient Fine-Tuning (PEFT) не учитывают этот аспект, что приводит к потерям в эффективности. В статье рассматривается вопрос о том, должны ли модули подготовки включать в себя механизмы маршрутизации, чтобы лучше адаптироваться к архитектуре MoE. Описывается анализ динамики PEFT при использовании в моделях MoE и изучаются различные стратегии маршрутизации. Исследования проводились на моделях OLMoE-1B-7B и Mixtral-8x7B, адаптированных к задачам смыслового понимания и математического рассуждения. На основе экспериментов доказано, что маршрутизируемые модули позволяют достичь более высокой эффективности и точности. На основе этих результатов даны рекомендации по оптимальной конфигурации для различных сценариев и применения MoE в реальных задачах.
Abstract
Mixture-of-Experts (MoE) benefits from a dynamic routing mechanism among
their specialized experts, which existing Parameter- Efficient Fine-Tuning
(PEFT) strategies fail to leverage. This motivates us to investigate whether
adaptation modules themselves should incorporate routing mechanisms to align
with MoE's multi-expert architecture. We analyze dynamics of core components
when applying PEFT to MoE language models and examine how different routing
strategies affect adaptation effectiveness. Extensive experiments adapting
OLMoE-1B-7B and Mixtral-8x7B on various commonsense and math reasoning tasks
validate the performance and efficiency of our routed approach. We identify the
optimal configurations for different scenarios and provide empirical analyses
with practical insights to facilitate better PEFT and MoE applications.
Ссылки и действия
Дополнительные ресурсы: