The Cultural Gene of Large Language Models: A Study on the Impact of Cross-Corpus Training on Model Values and Biases
2508.12411v1
cs.CL, I.2.7; K.4.1; H.3.3
2025-08-20
Авторы:
Emanuel Z. Fenech-Borg, Tilen P. Meznaric-Kos, Milica D. Lekovic-Bojovic, Arni J. Hentze-Djurhuus
Резюме на русском
## Контекст
Large language models (LLMs) широко используются в различных областях, но их культурные и этические предположения остаются мало исследованными. Эти модели обучаются на больших корпусах данных, которые отражают определенные культурные и ценностные ориентации. Это может привести к алгоритмической культурной гегемонии, если не учитываются культурные контексты при развертывании и оценке моделей. Мотивация для данного исследования заключается в изучении того, как культурные и этические ориентации LLMs влияют на их поведение и решения, а также в разработке подходов для более культурно осведомленного развертывания таких моделей.
## Метод
Для изучения культурных ориентаций LLMs была разработана Cultural Probe Dataset (CPD), содержащая 200 заданий, охватывающих два ключевых кросс-культурных измерения: Individualism-Collectivism (IDV) и Power Distance (PDI). Эти измерения определены в рамках теории Гегельда о культурных значениях. Модели GPT-4 (Western-centric) и ERNIE Bot (Eastern-centric) были запущены с помощью стандартизированных zero-shot prompts. Для оценки выводов был применен гуманский анализ. Для измерения культурной алгоритмической аллигейшены (Cultural Alignment Index, CAI) использовались стандартные государственные показатели культурных значений, определенные Hofstedom.
## Результаты
Эксперименты показали существенные различия в ценностных ориентациях LLMs. GPT-4 проявил индивидуалистические и низкопитанностные тенденции (IDV score ~1.21; PDI score ~-1.05), в то время как ERNIE Bot проявил коллективистские и высокопитанностные тенденции (IDV score ~-0.89; PDI score ~0.76). Эти различия были статистически значимы (p < 0.001). В CAI, GPT-4 ближе сходился к США (IDV CAI ~0.91; PDI CAI ~0.88), в то время как ERNIE Bot ближе сходился к Китаю (IDV CAI ~0.85; PDI CAI ~0.81). Квалитативный анализ указал на то, что эти ценностные ориентации отражаются в их резолюции дилемм и в отношении авторитета.
## Значимость
Результаты имеют значительное значение для различных областей, включая культурную этику, международное развертывание AI, а также роль технологий в социальной справедливости. Наша работа подчеркивает необходимость развития культурно осведомленных подходов для разработки и развертывания LLMs, чтобы избежать алгоритмической культурной гегемонии и обеспечить более инклюзивное и культурно чувствительное применение технологий.
## Выводы
Наше исследование подтверждает, что LLMs являются статистическими отражениями культурных корпусов, на которых они обучаются. Мы выделили существенные различия в культурных ориентациях GPT-4 и ERNIE Bot, которые отразились в их решения
Abstract
Large language models (LLMs) are deployed globally, yet their underlying
cultural and ethical assumptions remain underexplored. We propose the notion of
a "cultural gene" -- a systematic value orientation that LLMs inherit from
their training corpora -- and introduce a Cultural Probe Dataset (CPD) of 200
prompts targeting two classic cross-cultural dimensions:
Individualism-Collectivism (IDV) and Power Distance (PDI). Using standardized
zero-shot prompts, we compare a Western-centric model (GPT-4) and an
Eastern-centric model (ERNIE Bot). Human annotation shows significant and
consistent divergence across both dimensions. GPT-4 exhibits individualistic
and low-power-distance tendencies (IDV score approx 1.21; PDI score approx
-1.05), while ERNIE Bot shows collectivistic and higher-power-distance
tendencies (IDV approx -0.89; PDI approx 0.76); differences are statistically
significant (p < 0.001). We further compute a Cultural Alignment Index (CAI)
against Hofstede's national scores and find GPT-4 aligns more closely with the
USA (e.g., IDV CAI approx 0.91; PDI CAI approx 0.88) whereas ERNIE Bot aligns
more closely with China (IDV CAI approx 0.85; PDI CAI approx 0.81). Qualitative
analyses of dilemma resolution and authority-related judgments illustrate how
these orientations surface in reasoning. Our results support the view that LLMs
function as statistical mirrors of their cultural corpora and motivate
culturally aware evaluation and deployment to avoid algorithmic cultural
hegemony.