Bernoulli-LoRA: A Theoretical Framework for Randomized Low-Rank Adaptation

2508.03820v1 cs.LG, math.OC 2025-08-09
Авторы:

Igor Sokolov, Abdurakhmon Sadiev, Yury Demidovich, Fawaz S Al-Qahtani, Peter Richtárik

Резюме на русском

#### Контекст Parameter-efficient fine-tuning (PEFT) является ключевым подходом для адаптации больших обученных моделей к конкретным задачам, особенно с учетом непрерывного роста размеров моделей. Наиболее успешным подходом в этой области является Low-Rank Adaptation (LoRA), которая предлагает выразить адаптацию через произведение двух низкоранговых матриц. Хотя LoRA пользуется большим практическим применением, теоретическое понимание ее работы остается недостаточным. Недавние исследования, такие как RAC-LoRA (arXiv:2410.08305), стали первым шагом в направлении глубокого анализа. В настоящей работе мы предлагаем Bernoulli-LoRA — новый теоретический фреймворк, который унифицирует и расширяет существующие подходы LoRA. Мы предлагаем использовать проблему Бернулли для выбора матрицы для обновления, что позволяет унифицировать различные стратегии обновления, в то же время сохраняя теоретическую доступность. #### Метод Мы предлагаем Bernoulli-LoRA, который включает несколько вариантов различных методов обновления. Наш фреймворк построен на основе механизма Бернулли, который регулирует скорость и частоту обновлений матриц. Мы рассматриваем такие варианты, как Bernoulli-LoRA-GD (построенный на градиентном спуске), Bernoulli-LoRA-SGD (стохастический градиентный спуск), Bernoulli-LoRA-PAGE, Bernoulli-LoRA-MVR, Bernoulli-LoRA-QGD, Bernoulli-LoRA-MARINA и Bernoulli-LoRA-EF21. Для каждого варианта мы устанавливаем гарантии сходимости, включая общие теоретические гипотезы о неконвексных функциях. Также мы расширяем наш анализ для линейных и нелинейных функций, а также для случая сложности в адаптации. #### Результаты Мы проводим эксперименты для проверки нашей теории на различных задачах, включая обучение с подкреплением, классификацию изображений и текстов. Мы сравниваем наши результаты с другими подходами, такими как LoRA, RAC-LoRA и другие подходы PEFT. Наши эксперименты показали, что Bernoulli-LoRA не только обладает теоретической ценностью, но и демонстрирует высокую эффективность в практических задачах. Мы увидели, что использование проблемы Бернулли для выбора матрицы значительно улучшает скорость и качество обучения, а также увеличивает устойчивость модели к шумам. #### Значимость Мы видим возможности применения Bernoulli-LoRA в различных областях, таких как глубокое обучение, классификация текстов, обучение резильтатам, а также в области adaptive optimization. Наш подход может существенно улучшить эффективность адаптации моделей к новым данным, что важно для реального мира, где модели должны быстро адаптироваться к новым условиям. Мы также отмечаем, что наш подход может помочь в решени

Abstract

Parameter-efficient fine-tuning (PEFT) has emerged as a crucial approach for adapting large foundational models to specific tasks, particularly as model sizes continue to grow exponentially. Among PEFT methods, Low-Rank Adaptation (LoRA) (arXiv:2106.09685) stands out for its effectiveness and simplicity, expressing adaptations as a product of two low-rank matrices. While extensive empirical studies demonstrate LoRA's practical utility, theoretical understanding of such methods remains limited. Recent work on RAC-LoRA (arXiv:2410.08305) took initial steps toward rigorous analysis. In this work, we introduce Bernoulli-LoRA, a novel theoretical framework that unifies and extends existing LoRA approaches. Our method introduces a probabilistic Bernoulli mechanism for selecting which matrix to update. This approach encompasses and generalizes various existing update strategies while maintaining theoretical tractability. Under standard assumptions from non-convex optimization literature, we analyze several variants of our framework: Bernoulli-LoRA-GD, Bernoulli-LoRA-SGD, Bernoulli-LoRA-PAGE, Bernoulli-LoRA-MVR, Bernoulli-LoRA-QGD, Bernoulli-LoRA-MARINA, and Bernoulli-LoRA-EF21, establishing convergence guarantees for each variant. Additionally, we extend our analysis to convex non-smooth functions, providing convergence rates for both constant and adaptive (Polyak-type) stepsizes. Through extensive experiments on various tasks, we validate our theoretical findings and demonstrate the practical efficacy of our approach. This work is a step toward developing theoretically grounded yet practically effective PEFT methods.

Ссылки и действия