Align, Don't Divide: Revisiting the LoRA Architecture in Multi-Task Learning

2508.05078v1 cs.CL, cs.AI 2025-08-09

Авторы:

Jinda Liu, Bo Cheng, Yi Chang, Yuan Wu

Резюме на русском

--- title: КОНТЕКСТ И ПРОБЛЕМАТИКА --- ### message ## КОНТЕКСТ И ПРОБЛЕМАТИКА Parameter-Efficient Fine-Tuning (PEFT) является ключевым подходом для адаптации Large Language Models (LLMs) к новым задачам, особенно в условиях ограниченных вычислительных ресурсов. В настоящее время LLMs часто используются в многозадачных сценариях (Multi-Task Learning, MTL), требующих эффективной адаптации к различным доменам и задачам. Традиционный подход в MTL заключается в использовании многоадаптерных или многоголовных архитектур, таких как LoRA, которые предполагают структурную разнообразность для захвата уникальных особенностей каждой задачи. Однако этот подход сталкивается с проблемами, связанными с сложностью моделей, переобучением и снижением эффективности при одновременном обучении на нескольких задачах. Исследование Align, Don't Divide: Revisiting the LoRA Architecture in Multi-Task Learning выдвигает критический взгляд на существующие парадигмы MTL. Авторы поднимают вопрос о том, насколько эффективны сложные многокомпонентные архитектуры при адаптации LLMs. Они показывают, что существующие подходы, основанные на многоадаптерных системах, могут быть не оптимальными. Вместо этого, исследование показывает, что упрощенные модели с высокой интер-головной схожестью (inter-head similarity) могут достичь более высокой эффективности. Это приводит к новой гипотезе: ключевым фактором успешной адаптации LLMs в MTL является обучение устойчивых общих представлений, а не изоляция задач-специфичных функций. ## ПРЕДЛОЖЕННЫЙ МЕТОД Чтобы проверить эту гипотезу, авторы предлагают Align-LoRA, модификацию архитектуры LoRA, которая включает явное выравнивание (alignment) представлений задач в общем пространстве адаптера. В отличие от сложных многоадаптерных систем, Align-LoRA использует упрощенную структуру с единственным адаптером, но с более высоким рангом. Это позволяет модели фокусироваться на обучении общих представлений, сохраняя при этом возможность эффективной адаптации к нескольким задачам. Ключевой инновацией Align-LoRA является введение дополнительного лосса (loss), направленного на выравнивание представлений различных задач в общем пространстве. Это позволяет модели избегать чрезмерной специфичности для каждой задачи и поощряет формирование более универсальных и робастных представлений. Архитектура Align-LoRA проста в реализации и может быть легко интегрирована в существующие модели LoRA. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Авторы провели комплексный набор экспериментов для оценки эффективности Align-LoRA. Исследование включало в себя моделирование на различных наборах данных, представляющих различные домены и задачи. Результаты показали, что Align-LoRA значительно превосходит базовые модели, основанные на многоадаптерных системах, в терминах точности и общей эффективности. Кроме того, эксперименты показали, что увеличение ранга адаптера в стандартной LoRA также может привести к значительному улучшению результатов, что подтверждает гипотезу о важности обучения общих представлений. Авторы также продемонстрировали, что их подход эффективен даже при ограниченных вычислительных ресурсах, что делает его практичным для реального применения. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Align-LoRA может быть применен в различных областях, где необходима эффективная адаптация LLMs к множеству задач. Этот подход особенно важен в сферах, требующих высокой точности и быстрой адаптации, таких как здравоохранение, финансы и коммерческие приложения. Упрощенная архитектура также делает Align-LoRA доступным для организаций с ограниченными вычислительными мощностями. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ Align-LoRA представляет собой важное достижение в области PEFT и MTL, показывая, что упрощенные модели с высоким рангом и выравниванием представлений могут быть более эффективными, чем сложные многокомпонентные системы. Будущие исследования могут фокусироваться на дальнейшем улучшении эффективности и масштабируемости этого подхода, а также на его применении в более широком диапазоне задач и доменов.

Abstract

Parameter-Efficient Fine-Tuning (PEFT) is essential for adapting Large Language Models (LLMs). In practice, LLMs are often required to handle a diverse set of tasks from multiple domains, a scenario naturally addressed by multi-task learning (MTL). Within this MTL context, a prevailing trend involves LoRA variants with multiple adapters or heads, which advocate for structural diversity to capture task-specific knowledge. Our findings present a direct challenge to this paradigm. We first show that a simplified multi-head architecture with high inter-head similarity substantially outperforms complex multi-adapter and multi-head systems. This leads us to question the multi-component paradigm itself, and we further demonstrate that a standard single-adapter LoRA, with a sufficiently increased rank, also achieves highly competitive performance. These results lead us to a new hypothesis: effective MTL generalization hinges on learning robust shared representations, not isolating task-specific features. To validate this, we propose Align-LoRA, which incorporates an explicit loss to align task representations within the shared adapter space. Experiments confirm that Align-LoRA significantly surpasses all baselines, establishing a simpler yet more effective paradigm for adapting LLMs to multiple tasks. The code is available at https://github.com/jinda-liu/Align-LoRA.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Align, Don't Divide: Revisiting the LoRA Architecture in Multi-Task Learning

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

UW-BioNLP at ChemoTimelines 2025: Thinking, Fine-Tuning, and Dictionary-Enhanced...

AdmTree: Compressing Lengthy Context with Adaptive Semantic Trees

SignRoundV2: Closing the Performance Gap in Extremely Low-Bit Post-Training Quan...

Mitigating Catastrophic Forgetting in Target Language Adaptation of LLMs via Sou...

SEAL: Self-Evolving Agentic Learning for Conversational Question Answering over ...

Навигация