Dynamic Expert Specialization: Towards Catastrophic Forgetting-Free Multi-Domain MoE Adaptation

2509.16882v1 cs.LG, cs.AI, cs.CL 2025-09-24
Авторы:

Junzhuo Li, Bo Wang, Xiuze Zhou, Xuming Hu

Резюме на русском

## Контекст В современной нейроинформатике наблюдается значительный рост внимания к моделям **Mixture-of-Experts (MoE)**, которые обеспечивают острое увеличение модельной мощности за счет использования спarsely gated expert subnetworks. Однако адаптация таких моделей к нескольким доменам представляет собой серьезную проблему, так как часто встречается так называемый **catastrophic forgetting** — убывание производительности на предыдущих задачах при обучении на новых. Традиционные подходы, такие как полное fine-tuning или кластеризация доменов, либо требуют высоких вычислительных затрат, либо неэффективны в условиях растущего числа доменов. Это влечет за собой необходимость разработки систем, которые могут справляться с этими проблемами с минимальными затратами ресурсов и четкой изоляцией доменных искажений. ## Метод Мы предлагаем **Dynamic Expert Specialization (DES)**, новую архитектуру для устранения проблемы catastrophic forgetting в моделях MoE. DES основывается на трех ключевых компонентах: 1. **Адаптивный раутер**, который стремится добиться баланса между сохранением предварительно обученного знания и приспособлению к новым задачам, используя методы дистилляции знаний. 2. **Корреляционная карта экспертов и доменов**, позволяющая определить изолированные градиенты для каждого домена, чтобы минимизировать влияние одного домена на другие. 3. **Тристадическая схема адаптивного fine-tuning**, которая постепенно замораживает неспециализированные параметры модели, уменьшая влияние изменений на общую структуру. Эти компоненты объединяются в систему, которая может эффективно адаптироваться к множеству доменов с минимальными затратами на обучение. ## Результаты Мы проводили эксперименты на данных, содержащих шесть различных доменов (включая математику, кодирование и правосудие). Наши результаты показывают, что DES-MoE полностью совпадает с показателями **single-domain ESFT**, но сохраняет возможность обучать единую модель. Мы сравнили DES-MoE с полным fine-tuning и обнаружили, что уменьшается **catastrophic forgetting** на 89% при увеличении числа доменов с 2 до 6. Благодаря изоляции доменных градиентов и адаптивной схеме обучения, DES-MoE существенно ускоряет конвергенцию в 68% по сравнению с традиционными методами. ## Значимость Наш подход имеет широкое применение в области многозадачного обучения с небольшими вычислительными затратами. Он позволяет уменьшить влияние catastrophic forgetting и повысить эффективность обучения в условиях многодоменности. Благодаря изоляции экспертов и доменов, DES-MoE может быть применен в задачах, требующих высокой степени настройки и изоляции, например, в юридических системах, медицинских решениях и компьютерных графических системах. ## Выводы Мы пред

Abstract

Mixture-of-Experts (MoE) models offer immense capacity via sparsely gated expert subnetworks, yet adapting them to multiple domains without catastrophic forgetting remains an open challenge. Existing approaches either incur prohibitive computation, suffer cross-domain interference, or require separate runs per domain. We propose DES-MoE, a dynamic expert specialization framework for multi-domain adaptation of Mixture-of-Experts models. DES-MoE addresses catastrophic forgetting through three innovations: (1) an adaptive router balancing pre-trained knowledge retention and task-specific updates via distillation, (2) real-time expert-domain correlation mapping to isolate domain-specific gradients, and (3) a three-phase adaptive fine-tuning schedule that progressively freezes non-specialized parameters. Evaluated on six domains (math, code, law, etc.), DES-MoE matches single-domain ESFT performance while training one unified model, reduces forgetting by 89% compared to full fine-tuning as domains scale from 2 to 6, and achieves 68% faster convergence than conventional methods. Our work establishes dynamic expert isolation as a scalable paradigm for multi-task MoE adaptation.

Ссылки и действия