Efficient Modular Learning through Naive LoRA Summation: Leveraging Orthogonality in High-Dimensional Models

2508.11985v1 cs.LG, cs.AI 2025-08-19
Авторы:

Zhanhao Cao, Clement Truong, Andrew Lizarraga

Резюме на русском

#### ## Контекст В последние годы высшие значения в области языковых моделей достигаются благодаря масштабированию моделей, но это часто требует огромных вычислительных ресурсов. Для решения этой проблемы появились методы параметрного эффективного оптимизации (Parameter-Efficient Fine-Tuning, PEFT), которые позволяют обновлять только малую часть параметров модели. Один из таких подходов — Low-Rank Adaptation (LoRA), который хранит изменения параметров в виде произведения двух малых матриц. Это делает LoRA подходящим для составления независимых модулей. Однако, несмотря на эффективность, существуют проблемы с переобучением и конфликтом между модулями при их композиции. Эти проблемы опережают потенциал LoRA в создании более мощных и гибких языковых моделей. Наша мотивация заключается в исследовании возможности составления LoRA-модулей для эффективного многозадачного обучения без необходимости дополнительной обучения. #### ## Метод Мы предлагаем подход, основанный на ортогональности между LoRA-модулями, обученными на различных задачах. Основная идея заключается в том, что если модули тренируются на разных датасетах, то их вклад в модель должен быть добавочным и не мешать друг другу. Для тестирования эффективности этого подхода мы использовали модель GPT-2 Small с рангом LoRA=4 и альфа=64, обучив модули для трех различных доменов: математики, медицины и финансов. Далее, мы проводили парные эксперименты, добавляя модули по одному и измеряя их влияние на качество модели. Для оценки результатов мы использовали метрику perplexity. Для проверки гипотезы об ортогональности LoRA-модулей мы анализировали косинусную схожесть их вкладов. #### ## Результаты Исследования показали, что добавление модулей для различных доменов может существенно улучшить качество модели. Например, объединение модулей для математики и медицины привело к уменьшению perplexity на 9.1%, что является одной из лучших результатов среди всех парных комбинаций. Однако, при добавлении модулей для математики и финансов, а также для финансов и медицины, результаты были более смешанными, с положительным и отрицательным изменением. Для понимания источника этих изменений мы проанализировали косинусную схожесть LoRA-модулей. Мы обнаружили, что чем выше положительная корреляция косинусной схожести, тем меньше вероятность конфликта между модулями. #### ## Значимость Наш подход демонстрирует возможность эффективного многозадачного обучения без необходимости дополнительной обучения. Он может быть применен в различных сценариях машинного обучения, где требуется быстрое и эффективное обновление моделей. Этот подход также может быть использован для соз

Abstract

Recent advances in large language models are driven by scale, while parameter-efficient fine-tuning (PEFT) enables updating only a small fraction of parameters. Low-Rank Adaptation (LoRA) stores parameter deltas as the product of two small matrices, which makes them natural building blocks that can be composed. Motivated by the superposition principle, we hypothesize that independently trained LoRA modules on disjoint domains are approximately orthogonal and can be combined by simple addition. Using GPT-2 Small (117M) with LoRA rank 4 and alpha=64, we train adapters for three QA domains (math, medicine, finance). In pairwise tests, adding Math+Medicine adapters improves perplexity by -9.10% relative to merged-data fine-tuning, while Math+Finance and Finance+Medicine change by +4.54% and +27.56%, respectively. Across combinations, the RMS cosine similarity between LoRA deltas correlates positively and approximately linearly with the change in perplexity. Naive summation requires no additional training, can be applied in seconds, and achieves performance comparable to models trained on merged data, while clarifying when interference appears in higher-order compositions.

Ссылки и действия