Entangled in Representations: Mechanistic Investigation of Cultural Biases in Large Language Models
2508.08879v1
cs.CL, cs.AI
2025-08-14
Авторы:
Haeun Yu, Seogyeong Jeong, Siddhesh Pawar, Jisu Shin, Jiho Jin, Junho Myung, Alice Oh, Isabelle Augenstein
Резюме на русском
## Контекст
Современные технологии обработки естественного языка (NLP) на основе крупных моделей языков (LLMs) востребованы во всемирных и культурно различных контекстах. Их применение способствует улучшению локализованных систем и увеличению охвата владельцев системы, однако они также сопрягаются с определенными рисками, в том числе сужением культурного разнообразия и объективности. В частности, LLMs могут проявлять предпочтения к "западной" культуре, игнорируя разнообразие культурных факторов, что может привести к формированию и распространению культурных предрассудков. Для того чтобы проанализировать это влияние, необходимо глубокое понимание того, как LLMs внутренние представления отражают культурные характеристики. Как следствие, этот аспект требует исследования, чтобы создать более включающие модели, которые могли бы более точно отражать культурное многообразие и сокращать пробелы в культурной компетентности.
## Метод
Для эвристического изучения внутренних представлений LLMs в отношении культурных факторов, авторы предлагают **Culturescope** — инструментальный механизм, рассчитанный на проникновение в внутреннюю структуру данных моделей. Основной алгоритм Culturescope опирается на метод "патчей" для извлечения информации о культуре. Этот подход позволяет изучить, каким образом LLMs основываются на культурных факторах при обработке текста. Чтобы измерить культурные предрассудки внутри LLMs, авторы предлагают культурный скор «Cultural Flattening Score», который отражает степень уплотнения культурных факторов вокруг западных культур. С помощью этих мер и методов авторы исследуют, каким образом LLMs встраивают в свои представления Западное центризму и культурную уплотнение.
## Результаты
В их экспериментах авторы применяли Culturescope к нескольким моделям LLM, включая универсальные модели и модели, ориентированные на конкретные регионы. Изученные модели проявили значительные предрассудки в части Западной культуры, что подтверждается высоким культурным скором «Cultural Flattening Score». Например, модели, ориентированные на западные культуры, сильнее всего воспроизводили культурные предрассудки и игнорировали менее документированные культуры. Эти модели также проявили ограниченную учетную способность для культур с низким ресурсом, что может быть связано с нехваткой данных в обучении. Лишь небольшое число моделей показало способность сдвигаться в сторону более равноправия между культурами, но даже в этих случаях оставались заметные баклажаны в воспроизведении культурных факторов.
## Значимость
Abstract
The growing deployment of large language models (LLMs) across diverse
cultural contexts necessitates a better understanding of how the
overgeneralization of less documented cultures within LLMs' representations
impacts their cultural understanding. Prior work only performs extrinsic
evaluation of LLMs' cultural competence, without accounting for how LLMs'
internal mechanisms lead to cultural (mis)representation. To bridge this gap,
we propose Culturescope, the first mechanistic interpretability-based method
that probes the internal representations of LLMs to elicit the underlying
cultural knowledge space. CultureScope utilizes a patching method to extract
the cultural knowledge. We introduce a cultural flattening score as a measure
of the intrinsic cultural biases. Additionally, we study how LLMs internalize
Western-dominance bias and cultural flattening, which allows us to trace how
cultural biases emerge within LLMs. Our experimental results reveal that LLMs
encode Western-dominance bias and cultural flattening in their cultural
knowledge space. We find that low-resource cultures are less susceptible to
cultural biases, likely due to their limited training resources. Our work
provides a foundation for future research on mitigating cultural biases and
enhancing LLMs' cultural understanding. Our codes and data used for experiments
are publicly available.
Ссылки и действия
Дополнительные ресурсы: