BiasGym: Fantastic Biases and How to Find (and Remove) Them

2508.08855v1 cs.CL, cs.AI, cs.LG 2025-08-14
Авторы:

Sekh Mainul Islam, Nadav Borenstein, Siddhesh Milind Pawar, Haeun Yu, Arnav Arora, Isabelle Augenstein

Резюме на русском

## Контекст Большие языковые модели (LLMs) становятся все более важными в сфере искусственного интеллекта, но они часто внедряют и распространяют потенциально опасные биазы, такие как сексуальные, этнические или профессиональные стереотипы. Эти стереотипы могут привести к субъективному и неточному поведению моделей, что подрывает их надежность и справедливость. Однако понимание и устранение этих биаз непросто, так как они часто выражаются в неявной форме и требуют специальных методов для их анализа и устранения. Мы предлагаем BiasGym — простой, эффективный и универсальный фреймворк для инжектирования, анализа и уменьшения биаз в LLMs. Это решение способствует созданию более справедливых и безопасных моделей для широкого применения. ## Метод BiasGym состоит из двух основных компонентов: **BiasInject** и **BiasScope**. Метод **BiasInject** использует токен-базированный подход для создания и внедрения конкретных биаз в модель LLM, при этом модель остается не обучаемой в этом процессе. **BiasScope**, в свою очередь, анализирует внедренные сигналы для поиска и корректировки компонентов модели, ответственных за выражение биаз. Эта структура позволяет легко инжектировать биазы, анализировать их влияние и целенаправленно их устранять без затрат на полную переобучение модели. Метод универсален и может применяться к различным типам биаз, даже тем, которые не встречались во время обучения модели. ## Результаты Мы проверили BiasGym на ряде реальных и фантастических стереотипов. Например, мы удалили стереотип о том, что люди из определенной страны являются "небрежными водителями", и создали нестандартный биаз, визуализировав фантастическую картинку, в которой люди из другой страны имеют "синюю кожу". Эксперименты показали, что BiasGym эффективно выявляет и устраняет биазы без отрицательного воздействия на качество модели в задачах последовательности. Метод также проверен на множестве дополнительных биазов, показывая широкую генерализуемость. ## Значимость BiasGym предлагает новый подход к управлению биазами в LLMs, что может использоваться в сферах безопасности, этики и интерпретируемости моделей. Он позволяет более глубоко понимать и управлять структурой внутренних представлений моделей. Это делает BiasGym не только инструментом для уменьшения стереотипов, но также полезным в широких областях, таких как справедливость в рекомендательных системах, токсичность и корректность документации моделей. ## Выводы BiasGym является надежным инструментом для анализа и устранения биаз в LLMs. Мы демонстрируем его эффективность на реальных и фан

Abstract

Understanding biases and stereotypes encoded in the weights of Large Language Models (LLMs) is crucial for developing effective mitigation strategies. Biased behaviour is often subtle and non-trivial to isolate, even when deliberately elicited, making systematic analysis and debiasing particularly challenging. To address this, we introduce BiasGym, a simple, cost-effective, and generalizable framework for reliably injecting, analyzing, and mitigating conceptual associations within LLMs. BiasGym consists of two components: BiasInject, which injects specific biases into the model via token-based fine-tuning while keeping the model frozen, and BiasScope, which leverages these injected signals to identify and steer the components responsible for biased behavior. Our method enables consistent bias elicitation for mechanistic analysis, supports targeted debiasing without degrading performance on downstream tasks, and generalizes to biases unseen during training. We demonstrate the effectiveness of BiasGym in reducing real-world stereotypes (e.g., people from a country being `reckless drivers') and in probing fictional associations (e.g., people from a country having `blue skin'), showing its utility for both safety interventions and interpretability research.

Ссылки и действия