Intrinsic Meets Extrinsic Fairness: Assessing the Downstream Impact of Bias Mitigation in Large Language Models
2509.16462v1
cs.CL, cs.CY, cs.LG
2025-09-24
Авторы:
'Mina Arzaghi', 'Alireza Dehghanpour Farashah', 'Florian Carichon', ' Golnoosh Farnadi'
Резюме на русском
#################################
## Контекст
#################################
Large Language Models (LLMs) широко используются в различных областях, но при этом могут содержать систематические биазы, которые влияют на результаты задач на уровне пользователя. Эти биазы могут быть "внутренними" (intrinsic) — встроенными в модель при обучении, и "внешними" (extrinsic) — возникающими при их применении в реальной жизни. Биазы, особенно в области финансовой индустрии, могут привести к ущербному влиянию на ключевые решения, такие как работа, кредитоспособность и зарплата. Многие исследования поднимают вопрос о том, как эти биазы влияют на результаты задач, но мало четкого понимания того, как именно внутренние биазы связаны с задачами на уровне пользователя. Наша работа ориентирована на анализ и устранение этих биаз, чтобы сократить их негативное влияние на решения в различных сферах.
#################################
## Метод
#################################
Мы предлагаем универсальный фреймворк для сравнения форм биаз-минимизации: "внутреннего" (intrinsic) через концептуальное неучение (concept unlearning) и "внешнего" (extrinsic) через применение данных для каунтерфактального дополнения (counterfactual data augmentation, CDA). Мы применяем этот подход к реальным задачам финансового классификации, таким как определение зарплаты, работоспособности и кредитоспособности. Модели тестируются как замороженные слои (frozen embedding extractors), так и тренируемые слои (fine-tuned classifiers). Это позволяет оценить не только эффективность биаз-минимизации, но и её влияние на качество задач. Мы использовали три открытых LLMs для того, чтобы проверить наш фреймворк на различных моделях и получить полное представление о результатах.
#################################
## Результаты
#################################
Наши эксперименты показали, что метод концептуального неучения снижает внутреннюю биазность модели до 94.9%, когда она изучается на таких задачах, как кредитоспособность и зарплата. Это существенно повышает метрики справедливости, такие как демографическое равенство (demographic parity), на 82%. Эти результаты не вызывают ухудшения точности (accuracy) модели. Мы также проверили, насколько эффективен этот подход при использовании моделей как замороженных, так и тренируемых, и обнаружили, что качество задач в большинстве случаев улучшается более эффективно, когда минимизация биаз проводится на ранней стадии, до того, как модель будет применена на уровне пользователя.
#################################
## Значимость
#################################
Наши результаты показывают, что биаз-минимизация не только улучшает справедливость в решениях, но и может быть применена в различных сферах, где существуют внутренние биазы, таких как финансы, здравоохранение и правосудие. Наш фреймворк дает более чёткую инструкцию о том, как можно применять различные стратегии биаз-минимизации в зависимости от кон
Abstract
Large Language Models (LLMs) exhibit socio-economic biases that can propagate
into downstream tasks. While prior studies have questioned whether intrinsic
bias in LLMs affects fairness at the downstream task level, this work
empirically investigates the connection. We present a unified evaluation
framework to compare intrinsic bias mitigation via concept unlearning with
extrinsic bias mitigation via counterfactual data augmentation (CDA). We
examine this relationship through real-world financial classification tasks,
including salary prediction, employment status, and creditworthiness
assessment. Using three open-source LLMs, we evaluate models both as frozen
embedding extractors and as fine-tuned classifiers. Our results show that
intrinsic bias mitigation through unlearning reduces intrinsic gender bias by
up to 94.9%, while also improving downstream task fairness metrics, such as
demographic parity by up to 82%, without compromising accuracy. Our framework
offers practical guidance on where mitigation efforts can be most effective and
highlights the importance of applying early-stage mitigation before downstream
deployment.
Ссылки и действия
Дополнительные ресурсы: