BEFT: Bias-Efficient Fine-Tuning of Language Models

2509.15974v1 cs.CL, cs.AI, cs.LG 2025-09-23

Авторы:

Baichuan Huang, Ananth Balashankar, Amir Aminifar

Резюме на русском

#### Контекст В последние годы языковые модели (LLMs) стали основополагающим элементом в многих областях искусственного интеллекта, предоставляя мощные инструменты для обработки естественного языка. Однако одной из вызовов, с которыми сталкиваются разработчики, является эффективное адаптирование этих моделей к конкретным задачам с минимальным потреблением ресурсов. Адаптация моделей часто включает трудоемкие этапы обучения, требующие больших объемов данных и высокой вычислительной мощности. Биазы моделей, или bias terms, являются ключевым элементом в их архитектуре, отвечая за взаимосвязи между словами и фразами. Несмотря на то, что биазы могут быть гибко переобучены для достижения лучшей производительности, существуют ограничения в понимании каких именно биазных элементов нужно изменять для эффективного решения конкретной задачи. Это создает мотивацию для разработки методов, позволяющих выбирать наиболее эффективные биазные элементы для переобучения, повышая таким образом эффективность и экономичность тренировочных процессов. #### Метод Методом решения данной проблемы является подход, основанный на выборе наиболее эффективных биазных элементов для переобучения. Мы предлагаем модель, которая определяет наиболее важные биазные термины для задачи, используя метрики, такие как значимость биаза для понимания конкретных классов или примеров. Метод включает в себя несколько этапов: 1. **Идентификация релевантных биазных терминов**: Мы применяем анализ значимости для каждого из биазных элементов, чтобы определить, какие из них влияют на понимание задачи. 2. **Оптимизация параметров биазных терминов**: Используя виджеты, мы переобучаем только подмножество биазных терминов, которые имеют наибольшее влияние на задачу. 3. **Оценка производительности**: Мы используем широкий спектл задач, включая классификацию и генерацию, чтобы проверить эффективность наших методов. Процесс выбора биазных терминов основывается на объеме данных, а также на специфике задачи, чтобы максимизировать производительность модели с минимальным потреблением ресурсов. #### Результаты Мы провели исследования, тренируя модели с различными биазными терминами (query, key, value) и сравнивая их по результатам на разных задачах. Мы выполнили эксперименты на 110M до 6.7B параметров, используя LLMs в различных архитектурах (encoder-only и decoder-only). Результаты показали, что наш подход существенно выигрывает по производительности в сравнении с другими методами, особенно в условиях ограниченных данных. Например, при использовании нашего метода с 110M параметра

Abstract

Fine-tuning all-bias-terms stands out among various parameter-efficient fine-tuning (PEFT) techniques, owing to its out-of-the-box usability and competitive performance, especially in low-data regimes. Bias-only fine-tuning has the potential for unprecedented parameter efficiency. However, the link between fine-tuning different bias terms (i.e., bias terms in the query, key, or value projections) and downstream performance remains unclear. The existing approaches, e.g., based on the magnitude of bias change or empirical Fisher information, provide limited guidance for selecting the particular bias term for effective fine-tuning. In this paper, we propose an approach for selecting the bias term to be fine-tuned, forming the foundation of our bias-efficient fine-tuning (BEFT). We extensively evaluate our bias-efficient approach against other bias-selection approaches, across a wide range of large language models (LLMs) spanning encoder-only and decoder-only architectures from 110M to 6.7B parameters. Our results demonstrate the effectiveness and superiority of our bias-efficient approach on diverse downstream tasks, including classification, multiple-choice, and generation tasks.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

BEFT: Bias-Efficient Fine-Tuning of Language Models

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Arbitrage: Efficient Reasoning via Advantage-Aware Speculation

Structured Document Translation via Format Reinforcement Learning

Principled RL for Diffusion LLMs Emerges from a Sequence-Level Perspective

Agreement-Constrained Probabilistic Minimum Bayes Risk Decoding

SUPERChem: A Multimodal Reasoning Benchmark in Chemistry

Навигация