BiasGym: Fantastic LLM Biases and How to Find (and Remove) Them

2508.08855v2 cs.CL, cs.AI, cs.LG 2025-08-15
Авторы:

Sekh Mainul Islam, Nadav Borenstein, Siddhesh Milind Pawar, Haeun Yu, Arnav Arora, Isabelle Augenstein

Резюме на русском

## Контекст Large Language Models (LLMs) становятся все более популярными в различных областях применения, таких как поиск, генерация текста и диалоговые системы. Однако эти модели часто содержат нежелательные биазы и стереотипы, которые могут привести к нежелательным последствиям, таким как распространение предрассудков и дискриминации. Изучение и устранение этих биаз в весах LLMs крайне важно для развития эффективных стратегий минимизации их влияния. Несмотря на то, что существуют методы для эликвидации биаз в LLMs, они либо требуют дорогостоящих и сложных экспериментов, либо оказываются неэффективными для работы с непредсказуемыми или новыми формами биаз. Было предложено BiasGym — многоцелевой инструмент, который позволяет удобно инжектировать и изучать биазы в LLMs, а также использовать полученные сигналы для их устранения. ## Метод BiasGym представляет собой два основных компонента: BiasInject и BiasScope. **BiasInject** предназначен для точечного внедрения биаз в модель, используя токен-базуную тюнинг. Здесь модель остается замороженной, чтобы избежать полного переучивания. **BiasScope** использует созданные сигналы для того, чтобы идентифицировать и управлять слоями модели, ответственными за выражение биаз. Это позволяет создавать систематические эксперименты для изучения и устранения биаз в текстах, в то же время уменьшая затраты на экспериментирование. Метод BiasGym может применяться для разных типов биаз, в том числе и тех, которые не были видны во время токен-базной тюнинг. ## Результаты Исследования проводились на нескольких типах биаз, включая реальные тенденции (например, клише про драйверы из Италии) и фантастические (например, люди из фикциональной страны с голубым кожным цветом). BiasGym позволил не только идентифицировать эти биазы, но и устранить их, сохранив преемственность в плане качества решения задач. Эксперименты проводились на различных моделях, включая те, что являются открытым исходным кодом, и показали, что BiasGym обеспечивает значительную уменьшение биазных тенденций без существенного ухудшения производительности модели на реальных задачах. ## Значимость BiasGym представляет собой универсальный инструмент, который может быть использован для разных целей, включая стратегии минимизации предрассудков в моделях, проверку интерпретируемости текстов, и даже для экспериментов с фантастическими сценариями. Он позволяет снизить нежелательные последствия биаз в LLMs, улучшая их безопасность и этичность. Также, подход BiasGym может быть полезен для научных исследований в области механизмов обучения моделей и их влияния на рез

Abstract

Understanding biases and stereotypes encoded in the weights of Large Language Models (LLMs) is crucial for developing effective mitigation strategies. Biased behaviour is often subtle and non-trivial to isolate, even when deliberately elicited, making systematic analysis and debiasing particularly challenging. To address this, we introduce BiasGym, a simple, cost-effective, and generalizable framework for reliably injecting, analyzing, and mitigating conceptual associations within LLMs. BiasGym consists of two components: BiasInject, which injects specific biases into the model via token-based fine-tuning while keeping the model frozen, and BiasScope, which leverages these injected signals to identify and steer the components responsible for biased behavior. Our method enables consistent bias elicitation for mechanistic analysis, supports targeted debiasing without degrading performance on downstream tasks, and generalizes to biases unseen during token-based fine-tuning. We demonstrate the effectiveness of BiasGym in reducing real-world stereotypes (e.g., people from Italy being `reckless drivers') and in probing fictional associations (e.g., people from a fictional country having `blue skin'), showing its utility for both safety interventions and interpretability research.

Ссылки и действия