Amortized Bayesian Meta-Learning for Low-Rank Adaptation of Large Language Models

2508.14285v1 cs.LG, cs.AI, stat.ML, I.2.7 2025-08-22

Авторы:

Liyi Zhang, Jake Snell, Thomas L. Griffiths

Резюме на русском

## Контекст Fine-tuning large language models (LLMs) с использованием low-rank adaptation (LoRA) является эффективным способом интеграции данных из конкретных наборов. Однако не всегда ясно, насколько хорошо будет генерализоваться такой файн-тюнинг. Чтобы улучшить generalization, были предложены подходы, такие как оптимизация с использованием in-context prompts или использование meta-learning для fine-tuning LLMs. Однако эти методы требуют больших вычислительных ресурсов или многомерных пространств параметров. Наша исследовательская группа разработала Amortized Bayesian Meta-Learning for LoRA (ABMLL), который адаптирует подходы мета-обучения к LLMs на большом масштабе, сохраняя высокую эффективность. ## Метод ABMLL использует методы amortized Bayesian meta-learning для LLMs, отказавшись от стандартных требований к вычислительным ресурсам. Мы представляем task-specific и global parameters в контексте LoRA и применяем новые hyperparameters для баланса между reconstruction accuracy и fidelity task-specific parameters. Это позволяет повысить generalization и обеспечить новый уровень scalability для LLMs, включая Llama3-8B. Благодаря Bayesian framework, ABMLL также обеспечивает более точное quantification of uncertainty. ## Результаты Мы проверили ABMLL на двух датасетах: Unified-QA и CrossFit. Метод показал высокую точность и улучшенную expected calibration error по сравнению с соревнователями. Эксперименты показали, что ABMLL эффективно обрабатывает большие LLMs и значительно повышает generalization. Мы также провели анализ того, как эффективно ABMLL работает в разных условиях и подтвердили, что он может генерализоваться на незнакомых данных. ## Значимость ABMLL может быть применен в различных областях, где требуется высокая точность и generalization на больших моделях. Он предоставляет более эффективное и стабильное решение для fine-tuning LLMs с низким рангом, чем предыдущие методы. Благодаря использованию Bayesian framework, ABMLL также может использоваться для improved uncertainty quantification, что важно для принятия решений в реальном времени. Мы видим потенциал ABMLL в областях, таких как natural language processing, adaptive education и personalized recommendation systems. ## Выводы ABMLL достигает значительных улучшений в generalization и scalability для fine-tuning LLMs. Он может генерализоваться на незнакомых данных и предоставляет новый уровень точности в области uncertainty quantification. Наша работа открывает новые пути для future research в области meta-learning для LLMs, включая исследования новых regularization techniques и повышения efficiency.

Abstract

Fine-tuning large language models (LLMs) with low-rank adaptaion (LoRA) is a cost-effective way to incorporate information from a specific dataset. However, it is often unclear how well the fine-tuned LLM will generalize, i.e., how well it will perform on unseen datasets. Methods have been proposed to improve generalization by optimizing with in-context prompts, or by using meta-learning to fine-tune LLMs. However, these methods are expensive in memory and computation, requiring either long-context prompts or saving copies of parameters and using second-order gradient updates. To address these challenges, we propose Amortized Bayesian Meta-Learning for LoRA (ABMLL). This method builds on amortized Bayesian meta-learning for smaller models, adapting this approach to LLMs while maintaining its computational efficiency. We reframe task-specific and global parameters in the context of LoRA and use a set of new hyperparameters to balance reconstruction accuracy and the fidelity of task-specific parameters to the global ones. ABMLL provides effective generalization and scales to large models such as Llama3-8B. Furthermore, as a result of using a Bayesian framework, ABMLL provides improved uncertainty quantification. We test ABMLL on Unified-QA and CrossFit datasets and find that it outperforms existing methods on these benchmarks in terms of both accuracy and expected calibration error.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Резюме на русском

Abstract

Ссылки и действия

Навигация