Geopolitical Parallax: Beyond Walter Lippmann Just After Large Language Models
2508.19492v1
cs.CY, cs.CL
2025-08-29
Авторы:
Mehmet Can Yavuz, Humza Gohar Kabir, Aylin Özkan
Резюме на русском
#### Контекст
Объективность в журналистике всегда была спорной, в зависимости от того, насколько репортажи отражают факты или отражают чувствительность автора. Эта проблема стала еще более актуальной с развитием больших языковых моделей (LLMs), которые, как показывают исследования, могут сформировать или усилить культурные и идеологические предрассудки. В этом исследовании мы рассматриваем "геополитический параллакс" — систематическую разницу в качестве новостей и степени субъективности, сравнивая результаты моделей из Китая и Запада. Мы используем новостные статьи, анализируя их качество и степень субъективности, чтобы выявить потенциальные различия в программных моделях, связанные с геополитическими и культурными факторами.
#### Метод
Для исследования были использованы статьи из двух разных моделей LLMs: китайского происхождения (Qwen, BGE, Jina) и западного (Snowflake, Granite). Мы применяли модели к бенчмарку новостных статей, оценивая качество статей по 15 различным аспектам, включая стиль, информативность и эмоциональный цвет. Для объективности мы также проанализировали новости, относящиеся к политическим темам, таким как конфликт в Палестине и отношения любых двух стран — Китай и США. Для получения прогнозов мы использовали логистическую регрессию и методы соответствия тем, чтобы сравнить результаты двух моделей.
#### Результаты
Наши результаты показали систематические различия в оценке качества новостей между моделями разных происхождений. Например, западные модели оценивали статьи о Палестине как более субъективные и с отрицательным эмоциональным цветом. В то же время, китайские модели давали высокие оценки для новизны и детализации, но хуже оценивали техническую ясность. Эти различия были видны не только в локальных новостных темах, но и в международных отношениях, где китайские модели ставили низкие оценки за счет сложности, концентрации или позитивного эмоционального цвета, в то время как западные модели давали высокие оценки.
#### Значимость
Результаты этого исследования имеют большое значение для широких приложений в области новостей и медиа. Они показывают, что результаты моделей LLM могут отражать геополитические предрассудки, что может привести к ошибочным выводам о качестве новостей. Эти различия могут быть использованы для улучшения медиа-инструментов, чтобы избегать необоснованных оценок качества, влияющих на репутацию стран и новостных агентств.
#### Выводы
Мы заключаем, что необходимо развитие культурного калибрования LLM-моделей, чтобы избежать смешивания
Abstract
Objectivity in journalism has long been contested, oscillating between ideals
of neutral, fact-based reporting and the inevitability of subjective framing.
With the advent of large language models (LLMs), these tensions are now
mediated by algorithmic systems whose training data and design choices may
themselves embed cultural or ideological biases. This study investigates
geopolitical parallax-systematic divergence in news quality and subjectivity
assessments-by comparing article-level embeddings from Chinese-origin (Qwen,
BGE, Jina) and Western-origin (Snowflake, Granite) model families. We evaluate
both on a human-annotated news quality benchmark spanning fifteen stylistic,
informational, and affective dimensions, and on parallel corpora covering
politically sensitive topics, including Palestine and reciprocal China-United
States coverage. Using logistic regression probes and matched-topic evaluation,
we quantify per-metric differences in predicted positive-class probabilities
between model families. Our findings reveal consistent, non-random divergences
aligned with model origin. In Palestine-related coverage, Western models assign
higher subjectivity and positive emotion scores, while Chinese models emphasize
novelty and descriptiveness. Cross-topic analysis shows asymmetries in
structural quality metrics Chinese-on-US scoring notably lower in fluency,
conciseness, technicality, and overall quality-contrasted by higher negative
emotion scores. These patterns align with media bias theory and our distinction
between semantic, emotional, and relational subjectivity, and extend LLM bias
literature by showing that geopolitical framing effects persist in downstream
quality assessment tasks. We conclude that LLM-based media evaluation pipelines
require cultural calibration to avoid conflating content differences with
model-induced bias.
Ссылки и действия
Дополнительные ресурсы: