Intrinsic Meets Extrinsic Fairness: Assessing the Downstream Impact of Bias Mitigation in Large Language Models

2509.16462v1 cs.CL, cs.CY, cs.LG 2025-09-24

Авторы:

'Mina Arzaghi', 'Alireza Dehghanpour Farashah', 'Florian Carichon', ' Golnoosh Farnadi'

Резюме на русском

################################# ## Контекст ################################# Large Language Models (LLMs) широко используются в различных областях, но при этом могут содержать систематические биазы, которые влияют на результаты задач на уровне пользователя. Эти биазы могут быть "внутренними" (intrinsic) — встроенными в модель при обучении, и "внешними" (extrinsic) — возникающими при их применении в реальной жизни. Биазы, особенно в области финансовой индустрии, могут привести к ущербному влиянию на ключевые решения, такие как работа, кредитоспособность и зарплата. Многие исследования поднимают вопрос о том, как эти биазы влияют на результаты задач, но мало четкого понимания того, как именно внутренние биазы связаны с задачами на уровне пользователя. Наша работа ориентирована на анализ и устранение этих биаз, чтобы сократить их негативное влияние на решения в различных сферах. ################################# ## Метод ################################# Мы предлагаем универсальный фреймворк для сравнения форм биаз-минимизации: "внутреннего" (intrinsic) через концептуальное неучение (concept unlearning) и "внешнего" (extrinsic) через применение данных для каунтерфактального дополнения (counterfactual data augmentation, CDA). Мы применяем этот подход к реальным задачам финансового классификации, таким как определение зарплаты, работоспособности и кредитоспособности. Модели тестируются как замороженные слои (frozen embedding extractors), так и тренируемые слои (fine-tuned classifiers). Это позволяет оценить не только эффективность биаз-минимизации, но и её влияние на качество задач. Мы использовали три открытых LLMs для того, чтобы проверить наш фреймворк на различных моделях и получить полное представление о результатах. ################################# ## Результаты ################################# Наши эксперименты показали, что метод концептуального неучения снижает внутреннюю биазность модели до 94.9%, когда она изучается на таких задачах, как кредитоспособность и зарплата. Это существенно повышает метрики справедливости, такие как демографическое равенство (demographic parity), на 82%. Эти результаты не вызывают ухудшения точности (accuracy) модели. Мы также проверили, насколько эффективен этот подход при использовании моделей как замороженных, так и тренируемых, и обнаружили, что качество задач в большинстве случаев улучшается более эффективно, когда минимизация биаз проводится на ранней стадии, до того, как модель будет применена на уровне пользователя. ################################# ## Значимость ################################# Наши результаты показывают, что биаз-минимизация не только улучшает справедливость в решениях, но и может быть применена в различных сферах, где существуют внутренние биазы, таких как финансы, здравоохранение и правосудие. Наш фреймворк дает более чёткую инструкцию о том, как можно применять различные стратегии биаз-минимизации в зависимости от кон

Abstract

Large Language Models (LLMs) exhibit socio-economic biases that can propagate into downstream tasks. While prior studies have questioned whether intrinsic bias in LLMs affects fairness at the downstream task level, this work empirically investigates the connection. We present a unified evaluation framework to compare intrinsic bias mitigation via concept unlearning with extrinsic bias mitigation via counterfactual data augmentation (CDA). We examine this relationship through real-world financial classification tasks, including salary prediction, employment status, and creditworthiness assessment. Using three open-source LLMs, we evaluate models both as frozen embedding extractors and as fine-tuned classifiers. Our results show that intrinsic bias mitigation through unlearning reduces intrinsic gender bias by up to 94.9%, while also improving downstream task fairness metrics, such as demographic parity by up to 82%, without compromising accuracy. Our framework offers practical guidance on where mitigation efforts can be most effective and highlights the importance of applying early-stage mitigation before downstream deployment.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Intrinsic Meets Extrinsic Fairness: Assessing the Downstream Impact of Bias Mitigation in Large Language Models

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

PRSM: A Measure to Evaluate CLIP's Robustness Against Paraphrases

Value Drifts: Tracing Value Alignment During LLM Post-Training

Evaluating LLMs for Demographic-Targeted Social Bias Detection: A Comprehensive ...

LLM Analysis of 150+ years of German Parliamentary Debates on Migration Reveals ...

Decoding the Poetic Language of Emotion in Korean Modern Poetry: Insights from a...

Навигация