Dynamic Expert Specialization: Towards Catastrophic Forgetting-Free Multi-Domain MoE Adaptation
2509.16882v1
cs.LG, cs.AI, cs.CL
2025-09-24
Авторы:
Junzhuo Li, Bo Wang, Xiuze Zhou, Xuming Hu
Резюме на русском
## Контекст
В современной нейроинформатике наблюдается значительный рост внимания к моделям **Mixture-of-Experts (MoE)**, которые обеспечивают острое увеличение модельной мощности за счет использования спarsely gated expert subnetworks. Однако адаптация таких моделей к нескольким доменам представляет собой серьезную проблему, так как часто встречается так называемый **catastrophic forgetting** — убывание производительности на предыдущих задачах при обучении на новых. Традиционные подходы, такие как полное fine-tuning или кластеризация доменов, либо требуют высоких вычислительных затрат, либо неэффективны в условиях растущего числа доменов. Это влечет за собой необходимость разработки систем, которые могут справляться с этими проблемами с минимальными затратами ресурсов и четкой изоляцией доменных искажений.
## Метод
Мы предлагаем **Dynamic Expert Specialization (DES)**, новую архитектуру для устранения проблемы catastrophic forgetting в моделях MoE. DES основывается на трех ключевых компонентах:
1. **Адаптивный раутер**, который стремится добиться баланса между сохранением предварительно обученного знания и приспособлению к новым задачам, используя методы дистилляции знаний.
2. **Корреляционная карта экспертов и доменов**, позволяющая определить изолированные градиенты для каждого домена, чтобы минимизировать влияние одного домена на другие.
3. **Тристадическая схема адаптивного fine-tuning**, которая постепенно замораживает неспециализированные параметры модели, уменьшая влияние изменений на общую структуру.
Эти компоненты объединяются в систему, которая может эффективно адаптироваться к множеству доменов с минимальными затратами на обучение.
## Результаты
Мы проводили эксперименты на данных, содержащих шесть различных доменов (включая математику, кодирование и правосудие). Наши результаты показывают, что DES-MoE полностью совпадает с показателями **single-domain ESFT**, но сохраняет возможность обучать единую модель. Мы сравнили DES-MoE с полным fine-tuning и обнаружили, что уменьшается **catastrophic forgetting** на 89% при увеличении числа доменов с 2 до 6. Благодаря изоляции доменных градиентов и адаптивной схеме обучения, DES-MoE существенно ускоряет конвергенцию в 68% по сравнению с традиционными методами.
## Значимость
Наш подход имеет широкое применение в области многозадачного обучения с небольшими вычислительными затратами. Он позволяет уменьшить влияние catastrophic forgetting и повысить эффективность обучения в условиях многодоменности. Благодаря изоляции экспертов и доменов, DES-MoE может быть применен в задачах, требующих высокой степени настройки и изоляции, например, в юридических системах, медицинских решениях и компьютерных графических системах.
## Выводы
Мы пред
Abstract
Mixture-of-Experts (MoE) models offer immense capacity via sparsely gated
expert subnetworks, yet adapting them to multiple domains without catastrophic
forgetting remains an open challenge. Existing approaches either incur
prohibitive computation, suffer cross-domain interference, or require separate
runs per domain. We propose DES-MoE, a dynamic expert specialization framework
for multi-domain adaptation of Mixture-of-Experts models. DES-MoE addresses
catastrophic forgetting through three innovations: (1) an adaptive router
balancing pre-trained knowledge retention and task-specific updates via
distillation, (2) real-time expert-domain correlation mapping to isolate
domain-specific gradients, and (3) a three-phase adaptive fine-tuning schedule
that progressively freezes non-specialized parameters. Evaluated on six domains
(math, code, law, etc.), DES-MoE matches single-domain ESFT performance while
training one unified model, reduces forgetting by 89% compared to full
fine-tuning as domains scale from 2 to 6, and achieves 68% faster convergence
than conventional methods. Our work establishes dynamic expert isolation as a
scalable paradigm for multi-task MoE adaptation.
Ссылки и действия
Дополнительные ресурсы: