📊 Статистика дайджестов

Всего дайджестов: 34123 Добавлено сегодня: 101

Последнее обновление: сегодня

📄 The Cultural Gene of Large Language Models: A Study on the Impact of Cross-Corpus Training on Model Values and Biases

2025-08-20

Авторы:

Emanuel Z. Fenech-Borg, Tilen P. Meznaric-Kos, Milica D. Lekovic-Bojovic, Arni J. Hentze-Djurhuus

## Контекст Large language models (LLMs) широко используются в различных областях, но их культурные и этические предположения остаются мало исследованными. Эти модели обучаются на больших корпусах данных, которые отражают определенные культурные и ценностные ориентации. Это может привести к алгоритмической культурной гегемонии, если не учитываются культурные контексты при развертывании и оценке моделей. Мотивация для данного исследования заключается в изучении того, как культурные и этические ориентации LLMs влияют на их поведение и решения, а также в разработке подходов для более культурно осведомленного развертывания таких моделей. ## Метод Для изучения культурных ориентаций LLMs была разработана Cultural Probe Dataset (CPD), содержащая 200 заданий, охватывающих два ключевых кросс-культурных измерения: Individualism-Collectivism (IDV) и Power Distance (PDI). Эти измерения определены в рамках теории Гегельда о культурных значениях. Модели GPT-4 (Western-centric) и ERNIE Bot (Eastern-centric) были запущены с помощью стандартизированных zero-shot prompts. Для оценки выводов был применен гуманский анализ. Для измерения культурной алгоритмической аллигейшены (Cultural Alignment Index, CAI) использовались стандартные государственные показатели культурных значений, определенные Hofstedom. ## Результаты Эксперименты показали существенные различия в ценностных ориентациях LLMs. GPT-4 проявил индивидуалистические и низкопитанностные тенденции (IDV score ~1.21; PDI score ~-1.05), в то время как ERNIE Bot проявил коллективистские и высокопитанностные тенденции (IDV score ~-0.89; PDI score ~0.76). Эти различия были статистически значимы (p < 0.001). В CAI, GPT-4 ближе сходился к США (IDV CAI ~0.91; PDI CAI ~0.88), в то время как ERNIE Bot ближе сходился к Китаю (IDV CAI ~0.85; PDI CAI ~0.81). Квалитативный анализ указал на то, что эти ценностные ориентации отражаются в их резолюции дилемм и в отношении авторитета. ## Значимость Результаты имеют значительное значение для различных областей, включая культурную этику, международное развертывание AI, а также роль технологий в социальной справедливости. Наша работа подчеркивает необходимость развития культурно осведомленных подходов для разработки и развертывания LLMs, чтобы избежать алгоритмической культурной гегемонии и обеспечить более инклюзивное и культурно чувствительное применение технологий. ## Выводы Наше исследование подтверждает, что LLMs являются статистическими отражениями культурных корпусов, на которых они обучаются. Мы выделили существенные различия в культурных ориентациях GPT-4 и ERNIE Bot, которые отразились в их решения

Annotation:

Large language models (LLMs) are deployed globally, yet their underlying cultural and ethical assumptions remain underexplored. We propose the notion of a "cultural gene" -- a systematic value orientation that LLMs inherit from their training corpora -- and introduce a Cultural Probe Dataset (CPD) of 200 prompts targeting two classic cross-cultural dimensions: Individualism-Collectivism (IDV) and Power Distance (PDI). Using standardized zero-shot prompts, we compare a Western-centric model (GPT-...

ID: 2508.12411v1 cs.CL, I.2.7; K.4.1; H.3.3

arXiv PDF