MEPT: Mixture of Expert Prompt Tuning as a Manifold Mapper
2509.00996v1
cs.LG, cs.AI, cs.CL
2025-09-05
Авторы:
Runjia Zeng, Guangyan Sun, Qifan Wang, Tong Geng, Sohail Dianat, Xiaotian Han, Raghuveer Rao, Xueling Zhang, Cheng Han, Lifu Huang, Dongfang Liu
Резюме на русском
## Контекст
Многослойные нейронные сети (DNNs) часто интерпретируются как манифодные мапперы, которые могут активировать различные нейронные маршруты в зависимости от задачи. Однако подходы типа "предобучение-и-файн-тюнинг" (pretrain-then-fine-tune) обычно являются двухэтапными: предобучение устанавливает широкий базу знаний, а файн-тюнинг адаптирует модель к конкретной задаче. Несмотря на успех файн-тюнинга, его работа ограничена фиксированным пространством параметров, что не позволяет ему гибко адаптироваться к разнообразным и меняющимся распределениям данных. Эта проблема становится особенно актуальной в сложных и динамически изменяющихся различных областях применения. Мотивированы этими проблемами, авторы предлагают новый подход, **Mixture of Expert Prompt Tuning (MEPT)**, который предлагает более динамическую и эффективную модель для адаптации к нестационарным данным.
## Метод
MEPT является надстроение на Mixture of Experts (MoE), структуру, которая использует несколько экспертов, каждый из которых специализируется на определенных подмножествах данных. В MEPT применяется процесс **prompt tuning**, где несколько предварительно обученных моделей (prompts) адаптируются к новым данным. Эта гибкость позволяет MEPT активировать только те нейронные пути, которые требуются для конкретной задачи, без необходимости переучивать все модельные параметры. Архитектура MEPT включает в себя несколько моделей (prompts), которые работают в параллели, и выбираются в зависимости от конкретной задачи. Это позволяет легко адаптироваться к различным манифолдам без значительного увеличения модели.
## Результаты
Метод MEPT был протестирован на задаче классификации и обработки естественного языка (надстройка SuperGLUE). На этих задачах MEPT показал значительные улучшения по сравнению с другими параметр-эффективными методами. В частности, на SuperGLUE, MEPT улучшил средний результат на 1.94%, а также снизил число активируемых предложений (prompts) на 79.25%. Это указывает на то, что MEPT не только эффективнее, но и более экономно расходует ресурсы, активируя только те нейронные сети, которые необходимы для конкретной задачи.
## Значимость
MEPT может быть применен в разных областях, где необходима гибкая адаптация к изменяющимся данным, например в медицине, финансах, интернет-технологиях, и т.д. Главное преимущество MEPT заключается в его универсальности и эффективности в активации только необходимых нейронных сетей, что позволяет экономить ресурсы и повысить производительность. Этот подход также может быть использован для обучения моделей, которые могут быть более сильно адаптированы к
Abstract
Considering deep neural networks as manifold mappers, the
pretrain-then-fine-tune paradigm can be interpreted as a two-stage process:
pretrain establishes a broad knowledge base, and fine-tune adjusts the model
parameters to activate specific neural pathways to align with the target
manifold. Although prior fine-tuning approaches demonstrate success, their
rigid parameter space limits their ability to dynamically activate appropriate
neural pathways, rendering them ill-equipped to adapt flexibly to the diverse
and evolving data distributions. In light of this view, we propose a novel
approach, Mixture of Expert Prompt Tuning (MEPT), as an effective and efficient
manifold-mapping framework. MEPT leverages the Mixture of Experts architecture
by integrating multiple prompt experts to adaptively learn diverse and
non-stationary data distributions. Empirical evaluations demonstrate that MEPT
outperforms several state-of-the-art parameter efficient baselines on
SuperGLUE, achieving notable improvements in mean accuracy (e.g., 1.94%) while
significantly reducing activated prompts by 79.25%. The effectiveness of MEPT
is further supported by theoretical insights from manifold learning and
validated through neural activation pathway visualization results. Our code is
avaliable at https://github.com/runtsang/MEPT.
Ссылки и действия
Дополнительные ресурсы: