BEFT: Bias-Efficient Fine-Tuning of Language Models
2509.15974v1
cs.CL, cs.AI, cs.LG
2025-09-23
Авторы:
Baichuan Huang, Ananth Balashankar, Amir Aminifar
Резюме на русском
#### Контекст
В последние годы языковые модели (LLMs) стали основополагающим элементом в многих областях искусственного интеллекта, предоставляя мощные инструменты для обработки естественного языка. Однако одной из вызовов, с которыми сталкиваются разработчики, является эффективное адаптирование этих моделей к конкретным задачам с минимальным потреблением ресурсов. Адаптация моделей часто включает трудоемкие этапы обучения, требующие больших объемов данных и высокой вычислительной мощности. Биазы моделей, или bias terms, являются ключевым элементом в их архитектуре, отвечая за взаимосвязи между словами и фразами. Несмотря на то, что биазы могут быть гибко переобучены для достижения лучшей производительности, существуют ограничения в понимании каких именно биазных элементов нужно изменять для эффективного решения конкретной задачи. Это создает мотивацию для разработки методов, позволяющих выбирать наиболее эффективные биазные элементы для переобучения, повышая таким образом эффективность и экономичность тренировочных процессов.
#### Метод
Методом решения данной проблемы является подход, основанный на выборе наиболее эффективных биазных элементов для переобучения. Мы предлагаем модель, которая определяет наиболее важные биазные термины для задачи, используя метрики, такие как значимость биаза для понимания конкретных классов или примеров. Метод включает в себя несколько этапов:
1. **Идентификация релевантных биазных терминов**: Мы применяем анализ значимости для каждого из биазных элементов, чтобы определить, какие из них влияют на понимание задачи.
2. **Оптимизация параметров биазных терминов**: Используя виджеты, мы переобучаем только подмножество биазных терминов, которые имеют наибольшее влияние на задачу.
3. **Оценка производительности**: Мы используем широкий спектл задач, включая классификацию и генерацию, чтобы проверить эффективность наших методов.
Процесс выбора биазных терминов основывается на объеме данных, а также на специфике задачи, чтобы максимизировать производительность модели с минимальным потреблением ресурсов.
#### Результаты
Мы провели исследования, тренируя модели с различными биазными терминами (query, key, value) и сравнивая их по результатам на разных задачах. Мы выполнили эксперименты на 110M до 6.7B параметров, используя LLMs в различных архитектурах (encoder-only и decoder-only). Результаты показали, что наш подход существенно выигрывает по производительности в сравнении с другими методами, особенно в условиях ограниченных данных. Например, при использовании нашего метода с 110M параметра
Abstract
Fine-tuning all-bias-terms stands out among various parameter-efficient
fine-tuning (PEFT) techniques, owing to its out-of-the-box usability and
competitive performance, especially in low-data regimes. Bias-only fine-tuning
has the potential for unprecedented parameter efficiency. However, the link
between fine-tuning different bias terms (i.e., bias terms in the query, key,
or value projections) and downstream performance remains unclear. The existing
approaches, e.g., based on the magnitude of bias change or empirical Fisher
information, provide limited guidance for selecting the particular bias term
for effective fine-tuning. In this paper, we propose an approach for selecting
the bias term to be fine-tuned, forming the foundation of our bias-efficient
fine-tuning (BEFT). We extensively evaluate our bias-efficient approach against
other bias-selection approaches, across a wide range of large language models
(LLMs) spanning encoder-only and decoder-only architectures from 110M to 6.7B
parameters. Our results demonstrate the effectiveness and superiority of our
bias-efficient approach on diverse downstream tasks, including classification,
multiple-choice, and generation tasks.
Ссылки и действия
Дополнительные ресурсы: