Do Biased Models Have Biased Thoughts?
2508.06671v2
cs.CL, cs.AI, I.2.7
2025-08-13
Авторы:
Swati Rajwal, Shivank Garg, Reem Abdel-Salam, Abdelrahman Zayed
Резюме на русском
#### Контекст
Современные языковые модели показали ошеломляющий прогресс в обработке естественного языка, однако они часто сталкиваются с проблемой биаса. Такие модели могут демонстрировать ненависть, предрассудки и зараженность злобой в отношении людей и групп на базе таких параметров, как пол, раса, национальность, статус в обществе, физический вид и сексуальное направление. Эти модели широко применяются во всех сферах жизнедеятельности, однако их биазы могут серьёзно нарушить справедливость и нейтральность. В настоящем исследовании анализируется влияние архитектуры на явление биаса в моделях языка, опираясь на подход "цепь мыслей", способящий раскрыть структуру модели и понять, почему она принимает определённые решения.
#### Метод
В ходе исследования использовались $5$ языковых моделей различных размеров, включая масштабные модели. Для экспериментов использовались $11$ метрик, охватывающих различные аспекты биаса, такие как гендерный, расовый и другие. На каждой модели в качестве входных данных были применены специальные запросы, используя подход "цепь мыслей", позволяющий модели выражать пошаговую мысль перед ответом. Это позволило измерить биазы на стадии вывода и решения. Результаты экспериментов были сравнены с метриками биаза, чтобы определить корреляцию между этапами мышления и фактическими биазами.
#### Результаты
Исследование показало, что модели с биазами в решениях не всегда имеют сильные биазы в конкретных этапах мышления. Точнее, такая цепь мышления не является сильным детерминантом финального решения модели. Коэффициент корреляции между этапами мышления и финальными биазами оказался меньше $0.6$, что указывает на слабую связь. Кроме того, большинство моделей показали $p$-значения меньше $0.001$, что говорит о том, что эта связь не является случайной. Это означает, что тестируемые модели могут делать биазные решения независимо от своих мыслей, что отличает их от человеческого мышления.
#### Значимость
Результаты имеют важное значение для разработки стратегий борьбы с биазом в моделях языка. Например, модели могут быть использованы в сферах, где важно минимизировать биаз, таких как системы рекомендаций, диагностические системы и системы поддержки решений. Модели с высоким биазом в решениях, но без биаза в мышлении, могут быть более справедливыми и нейтральными в применении. Это открывает пути к улучшению моделей с помощью новых архитектур, а также к использованию дополнительных методов, таких как мониторинг и устранение б
Abstract
The impressive performance of language models is undeniable. However, the
presence of biases based on gender, race, socio-economic status, physical
appearance, and sexual orientation makes the deployment of language models
challenging. This paper studies the effect of chain-of-thought prompting, a
recent approach that studies the steps followed by the model before it
responds, on fairness. More specifically, we ask the following question:
$\textit{Do biased models have biased thoughts}$? To answer our question, we
conduct experiments on $5$ popular large language models using fairness metrics
to quantify $11$ different biases in the model's thoughts and output. Our
results show that the bias in the thinking steps is not highly correlated with
the output bias (less than $0.6$ correlation with a $p$-value smaller than
$0.001$ in most cases). In other words, unlike human beings, the tested models
with biased decisions do not always possess biased thoughts.
Ссылки и действия
Дополнительные ресурсы: