Bias after Prompting: Persistent Discrimination in Large Language Models

2509.08146v1 cs.CL, cs.LG 2025-09-12
Авторы:

Nivedha Sivakumar, Natalie Mackraz, Samira Khorshidi, Krishna Patel, Barry-John Theobald, Luca Zappella, Nicholas Apostoloff

Резюме на русском

#### Контекст Существующие технологии машинного обучения, особенно большие языковые модели (LLMs), становятся все более важными в широких областях применения, включая роботов-консультантов, системы рекомендаций, интеллектуальный анализ, обработку естественного языка и другие. Однако эти модели часто склонны к установленным заблуждениям и дискриминации в отношении различных групп социальных характеристик, таких как возраст, пол, религия и другие. Биазы в моделях не только ограничивают их применение, но и создают потенциальные риски для людей, которые могут быть повлияны на неосновательных основаниях. Обычно считается, что при использовании методов приспособления, таких как применение подсказок (prompting), биазы не переносятся с предварительно обученных моделей на адаптированные. Однако это предположение не было достаточно исследовано. Наша работа стремится установить, насколько актуален этот вывод, используя модели с применением приспособлений подсказок. #### Метод Мы применяем модели с применением подсказок в качестве стратегии приспособления в реальных сценариях использования. Мы строим наши эксперименты с использованием существующих LLM-систем, таких как LLMs с приспособлением подсказак, чтобы изучить, насколько глубоко и часто биазы передаются в адаптированных моделях. Мы изучаем типы дискриминации, связанные с различными группами социальных характеристик, включая возраст, пол, религию и другие. Мы проверяем, насколько эффективны реально существующие методы дебазирования, такие как пробивка приспособленных моделей, и изучаем, каким образом параметры, такие как размер выборки, тип определения и представительность, влияют на степень передачи биаз. #### Результаты Мы выявили, что биазы могут быть переданы с помощью приспособлений подсказок, и что методы дебазирования, основанные на подсказаках, не всегда эффективны в предотвращении передачи биаз. Мы обнаружили, что при сильной корреляции с приспособлением подсказок, биазы в тексте могут быть переданы с моделей, доступных для открытого доступа, в адаптированных моделях. Например, мы изучили существующую модель LLM, которая передает биазы с максимальной корреляцией (rho >= 0.94) по полу в задаче координации, а также различные задачи, такие как вопросы-ответы, где уровень корреляции достигается до 0.98. Мы также показали, что типы дискриминации не зависят от параметров, таких как размер выборки и определение, и что методы дебазирования не постоянно эффективны во всех условиях. #### Значимость Результаты нашей работы могут быть применены в различных сферах, включая роботов-консуль

Abstract

A dangerous assumption that can be made from prior work on the bias transfer hypothesis (BTH) is that biases do not transfer from pre-trained large language models (LLMs) to adapted models. We invalidate this assumption by studying the BTH in causal models under prompt adaptations, as prompting is an extremely popular and accessible adaptation strategy used in real-world applications. In contrast to prior work, we find that biases can transfer through prompting and that popular prompt-based mitigation methods do not consistently prevent biases from transferring. Specifically, the correlation between intrinsic biases and those after prompt adaptation remain moderate to strong across demographics and tasks -- for example, gender (rho >= 0.94) in co-reference resolution, and age (rho >= 0.98) and religion (rho >= 0.69) in question answering. Further, we find that biases remain strongly correlated when varying few-shot composition parameters, such as sample size, stereotypical content, occupational distribution and representational balance (rho >= 0.90). We evaluate several prompt-based debiasing strategies and find that different approaches have distinct strengths, but none consistently reduce bias transfer across models, tasks or demographics. These results demonstrate that correcting bias, and potentially improving reasoning ability, in intrinsic models may prevent propagation of biases to downstream tasks.

Ссылки и действия