Do Biased Models Have Biased Thoughts?

2508.06671v2 cs.CL, cs.AI, I.2.7 2025-08-13
Авторы:

Swati Rajwal, Shivank Garg, Reem Abdel-Salam, Abdelrahman Zayed

Резюме на русском

#### Контекст Современные языковые модели показали ошеломляющий прогресс в обработке естественного языка, однако они часто сталкиваются с проблемой биаса. Такие модели могут демонстрировать ненависть, предрассудки и зараженность злобой в отношении людей и групп на базе таких параметров, как пол, раса, национальность, статус в обществе, физический вид и сексуальное направление. Эти модели широко применяются во всех сферах жизнедеятельности, однако их биазы могут серьёзно нарушить справедливость и нейтральность. В настоящем исследовании анализируется влияние архитектуры на явление биаса в моделях языка, опираясь на подход "цепь мыслей", способящий раскрыть структуру модели и понять, почему она принимает определённые решения. #### Метод В ходе исследования использовались $5$ языковых моделей различных размеров, включая масштабные модели. Для экспериментов использовались $11$ метрик, охватывающих различные аспекты биаса, такие как гендерный, расовый и другие. На каждой модели в качестве входных данных были применены специальные запросы, используя подход "цепь мыслей", позволяющий модели выражать пошаговую мысль перед ответом. Это позволило измерить биазы на стадии вывода и решения. Результаты экспериментов были сравнены с метриками биаза, чтобы определить корреляцию между этапами мышления и фактическими биазами. #### Результаты Исследование показало, что модели с биазами в решениях не всегда имеют сильные биазы в конкретных этапах мышления. Точнее, такая цепь мышления не является сильным детерминантом финального решения модели. Коэффициент корреляции между этапами мышления и финальными биазами оказался меньше $0.6$, что указывает на слабую связь. Кроме того, большинство моделей показали $p$-значения меньше $0.001$, что говорит о том, что эта связь не является случайной. Это означает, что тестируемые модели могут делать биазные решения независимо от своих мыслей, что отличает их от человеческого мышления. #### Значимость Результаты имеют важное значение для разработки стратегий борьбы с биазом в моделях языка. Например, модели могут быть использованы в сферах, где важно минимизировать биаз, таких как системы рекомендаций, диагностические системы и системы поддержки решений. Модели с высоким биазом в решениях, но без биаза в мышлении, могут быть более справедливыми и нейтральными в применении. Это открывает пути к улучшению моделей с помощью новых архитектур, а также к использованию дополнительных методов, таких как мониторинг и устранение б

Abstract

The impressive performance of language models is undeniable. However, the presence of biases based on gender, race, socio-economic status, physical appearance, and sexual orientation makes the deployment of language models challenging. This paper studies the effect of chain-of-thought prompting, a recent approach that studies the steps followed by the model before it responds, on fairness. More specifically, we ask the following question: $\textit{Do biased models have biased thoughts}$? To answer our question, we conduct experiments on $5$ popular large language models using fairness metrics to quantify $11$ different biases in the model's thoughts and output. Our results show that the bias in the thinking steps is not highly correlated with the output bias (less than $0.6$ correlation with a $p$-value smaller than $0.001$ in most cases). In other words, unlike human beings, the tested models with biased decisions do not always possess biased thoughts.

Ссылки и действия