Amortized Bayesian Meta-Learning for Low-Rank Adaptation of Large Language Models
2508.14285v1
cs.LG, cs.AI, stat.ML, I.2.7
2025-08-22
Авторы:
Liyi Zhang, Jake Snell, Thomas L. Griffiths
Резюме на русском
## Контекст
Fine-tuning large language models (LLMs) с использованием low-rank adaptation (LoRA) является эффективным способом интеграции данных из конкретных наборов. Однако не всегда ясно, насколько хорошо будет генерализоваться такой файн-тюнинг. Чтобы улучшить generalization, были предложены подходы, такие как оптимизация с использованием in-context prompts или использование meta-learning для fine-tuning LLMs. Однако эти методы требуют больших вычислительных ресурсов или многомерных пространств параметров. Наша исследовательская группа разработала Amortized Bayesian Meta-Learning for LoRA (ABMLL), который адаптирует подходы мета-обучения к LLMs на большом масштабе, сохраняя высокую эффективность.
## Метод
ABMLL использует методы amortized Bayesian meta-learning для LLMs, отказавшись от стандартных требований к вычислительным ресурсам. Мы представляем task-specific и global parameters в контексте LoRA и применяем новые hyperparameters для баланса между reconstruction accuracy и fidelity task-specific parameters. Это позволяет повысить generalization и обеспечить новый уровень scalability для LLMs, включая Llama3-8B. Благодаря Bayesian framework, ABMLL также обеспечивает более точное quantification of uncertainty.
## Результаты
Мы проверили ABMLL на двух датасетах: Unified-QA и CrossFit. Метод показал высокую точность и улучшенную expected calibration error по сравнению с соревнователями. Эксперименты показали, что ABMLL эффективно обрабатывает большие LLMs и значительно повышает generalization. Мы также провели анализ того, как эффективно ABMLL работает в разных условиях и подтвердили, что он может генерализоваться на незнакомых данных.
## Значимость
ABMLL может быть применен в различных областях, где требуется высокая точность и generalization на больших моделях. Он предоставляет более эффективное и стабильное решение для fine-tuning LLMs с низким рангом, чем предыдущие методы. Благодаря использованию Bayesian framework, ABMLL также может использоваться для improved uncertainty quantification, что важно для принятия решений в реальном времени. Мы видим потенциал ABMLL в областях, таких как natural language processing, adaptive education и personalized recommendation systems.
## Выводы
ABMLL достигает значительных улучшений в generalization и scalability для fine-tuning LLMs. Он может генерализоваться на незнакомых данных и предоставляет новый уровень точности в области uncertainty quantification. Наша работа открывает новые пути для future research в области meta-learning для LLMs, включая исследования новых regularization techniques и повышения efficiency.
Abstract
Fine-tuning large language models (LLMs) with low-rank adaptaion (LoRA) is a
cost-effective way to incorporate information from a specific dataset. However,
it is often unclear how well the fine-tuned LLM will generalize, i.e., how well
it will perform on unseen datasets. Methods have been proposed to improve
generalization by optimizing with in-context prompts, or by using meta-learning
to fine-tune LLMs. However, these methods are expensive in memory and
computation, requiring either long-context prompts or saving copies of
parameters and using second-order gradient updates. To address these
challenges, we propose Amortized Bayesian Meta-Learning for LoRA (ABMLL). This
method builds on amortized Bayesian meta-learning for smaller models, adapting
this approach to LLMs while maintaining its computational efficiency. We
reframe task-specific and global parameters in the context of LoRA and use a
set of new hyperparameters to balance reconstruction accuracy and the fidelity
of task-specific parameters to the global ones. ABMLL provides effective
generalization and scales to large models such as Llama3-8B. Furthermore, as a
result of using a Bayesian framework, ABMLL provides improved uncertainty
quantification. We test ABMLL on Unified-QA and CrossFit datasets and find that
it outperforms existing methods on these benchmarks in terms of both accuracy
and expected calibration error.