MEPT: Mixture of Expert Prompt Tuning as a Manifold Mapper

2509.00996v1 cs.LG, cs.AI, cs.CL 2025-09-05
Авторы:

Runjia Zeng, Guangyan Sun, Qifan Wang, Tong Geng, Sohail Dianat, Xiaotian Han, Raghuveer Rao, Xueling Zhang, Cheng Han, Lifu Huang, Dongfang Liu

Резюме на русском

## Контекст Многослойные нейронные сети (DNNs) часто интерпретируются как манифодные мапперы, которые могут активировать различные нейронные маршруты в зависимости от задачи. Однако подходы типа "предобучение-и-файн-тюнинг" (pretrain-then-fine-tune) обычно являются двухэтапными: предобучение устанавливает широкий базу знаний, а файн-тюнинг адаптирует модель к конкретной задаче. Несмотря на успех файн-тюнинга, его работа ограничена фиксированным пространством параметров, что не позволяет ему гибко адаптироваться к разнообразным и меняющимся распределениям данных. Эта проблема становится особенно актуальной в сложных и динамически изменяющихся различных областях применения. Мотивированы этими проблемами, авторы предлагают новый подход, **Mixture of Expert Prompt Tuning (MEPT)**, который предлагает более динамическую и эффективную модель для адаптации к нестационарным данным. ## Метод MEPT является надстроение на Mixture of Experts (MoE), структуру, которая использует несколько экспертов, каждый из которых специализируется на определенных подмножествах данных. В MEPT применяется процесс **prompt tuning**, где несколько предварительно обученных моделей (prompts) адаптируются к новым данным. Эта гибкость позволяет MEPT активировать только те нейронные пути, которые требуются для конкретной задачи, без необходимости переучивать все модельные параметры. Архитектура MEPT включает в себя несколько моделей (prompts), которые работают в параллели, и выбираются в зависимости от конкретной задачи. Это позволяет легко адаптироваться к различным манифолдам без значительного увеличения модели. ## Результаты Метод MEPT был протестирован на задаче классификации и обработки естественного языка (надстройка SuperGLUE). На этих задачах MEPT показал значительные улучшения по сравнению с другими параметр-эффективными методами. В частности, на SuperGLUE, MEPT улучшил средний результат на 1.94%, а также снизил число активируемых предложений (prompts) на 79.25%. Это указывает на то, что MEPT не только эффективнее, но и более экономно расходует ресурсы, активируя только те нейронные сети, которые необходимы для конкретной задачи. ## Значимость MEPT может быть применен в разных областях, где необходима гибкая адаптация к изменяющимся данным, например в медицине, финансах, интернет-технологиях, и т.д. Главное преимущество MEPT заключается в его универсальности и эффективности в активации только необходимых нейронных сетей, что позволяет экономить ресурсы и повысить производительность. Этот подход также может быть использован для обучения моделей, которые могут быть более сильно адаптированы к

Abstract

Considering deep neural networks as manifold mappers, the pretrain-then-fine-tune paradigm can be interpreted as a two-stage process: pretrain establishes a broad knowledge base, and fine-tune adjusts the model parameters to activate specific neural pathways to align with the target manifold. Although prior fine-tuning approaches demonstrate success, their rigid parameter space limits their ability to dynamically activate appropriate neural pathways, rendering them ill-equipped to adapt flexibly to the diverse and evolving data distributions. In light of this view, we propose a novel approach, Mixture of Expert Prompt Tuning (MEPT), as an effective and efficient manifold-mapping framework. MEPT leverages the Mixture of Experts architecture by integrating multiple prompt experts to adaptively learn diverse and non-stationary data distributions. Empirical evaluations demonstrate that MEPT outperforms several state-of-the-art parameter efficient baselines on SuperGLUE, achieving notable improvements in mean accuracy (e.g., 1.94%) while significantly reducing activated prompts by 79.25%. The effectiveness of MEPT is further supported by theoretical insights from manifold learning and validated through neural activation pathway visualization results. Our code is avaliable at https://github.com/runtsang/MEPT.

Ссылки и действия