Geopolitical Parallax: Beyond Walter Lippmann Just After Large Language Models

2508.19492v1 cs.CY, cs.CL 2025-08-29
Авторы:

Mehmet Can Yavuz, Humza Gohar Kabir, Aylin Özkan

Резюме на русском

#### Контекст Объективность в журналистике всегда была спорной, в зависимости от того, насколько репортажи отражают факты или отражают чувствительность автора. Эта проблема стала еще более актуальной с развитием больших языковых моделей (LLMs), которые, как показывают исследования, могут сформировать или усилить культурные и идеологические предрассудки. В этом исследовании мы рассматриваем "геополитический параллакс" — систематическую разницу в качестве новостей и степени субъективности, сравнивая результаты моделей из Китая и Запада. Мы используем новостные статьи, анализируя их качество и степень субъективности, чтобы выявить потенциальные различия в программных моделях, связанные с геополитическими и культурными факторами. #### Метод Для исследования были использованы статьи из двух разных моделей LLMs: китайского происхождения (Qwen, BGE, Jina) и западного (Snowflake, Granite). Мы применяли модели к бенчмарку новостных статей, оценивая качество статей по 15 различным аспектам, включая стиль, информативность и эмоциональный цвет. Для объективности мы также проанализировали новости, относящиеся к политическим темам, таким как конфликт в Палестине и отношения любых двух стран — Китай и США. Для получения прогнозов мы использовали логистическую регрессию и методы соответствия тем, чтобы сравнить результаты двух моделей. #### Результаты Наши результаты показали систематические различия в оценке качества новостей между моделями разных происхождений. Например, западные модели оценивали статьи о Палестине как более субъективные и с отрицательным эмоциональным цветом. В то же время, китайские модели давали высокие оценки для новизны и детализации, но хуже оценивали техническую ясность. Эти различия были видны не только в локальных новостных темах, но и в международных отношениях, где китайские модели ставили низкие оценки за счет сложности, концентрации или позитивного эмоционального цвета, в то время как западные модели давали высокие оценки. #### Значимость Результаты этого исследования имеют большое значение для широких приложений в области новостей и медиа. Они показывают, что результаты моделей LLM могут отражать геополитические предрассудки, что может привести к ошибочным выводам о качестве новостей. Эти различия могут быть использованы для улучшения медиа-инструментов, чтобы избегать необоснованных оценок качества, влияющих на репутацию стран и новостных агентств. #### Выводы Мы заключаем, что необходимо развитие культурного калибрования LLM-моделей, чтобы избежать смешивания

Abstract

Objectivity in journalism has long been contested, oscillating between ideals of neutral, fact-based reporting and the inevitability of subjective framing. With the advent of large language models (LLMs), these tensions are now mediated by algorithmic systems whose training data and design choices may themselves embed cultural or ideological biases. This study investigates geopolitical parallax-systematic divergence in news quality and subjectivity assessments-by comparing article-level embeddings from Chinese-origin (Qwen, BGE, Jina) and Western-origin (Snowflake, Granite) model families. We evaluate both on a human-annotated news quality benchmark spanning fifteen stylistic, informational, and affective dimensions, and on parallel corpora covering politically sensitive topics, including Palestine and reciprocal China-United States coverage. Using logistic regression probes and matched-topic evaluation, we quantify per-metric differences in predicted positive-class probabilities between model families. Our findings reveal consistent, non-random divergences aligned with model origin. In Palestine-related coverage, Western models assign higher subjectivity and positive emotion scores, while Chinese models emphasize novelty and descriptiveness. Cross-topic analysis shows asymmetries in structural quality metrics Chinese-on-US scoring notably lower in fluency, conciseness, technicality, and overall quality-contrasted by higher negative emotion scores. These patterns align with media bias theory and our distinction between semantic, emotional, and relational subjectivity, and extend LLM bias literature by showing that geopolitical framing effects persist in downstream quality assessment tasks. We conclude that LLM-based media evaluation pipelines require cultural calibration to avoid conflating content differences with model-induced bias.

Ссылки и действия