Assessing Historical Structural Oppression Worldwide via Rule-Guided Prompting of Large Language Models

2509.15216v1 cs.CL, cs.CY 2025-09-20
Авторы:

Sreejato Chatterjee, Linh Tran, Quoc Duy Nguyen, Roni Kirson, Drue Hamlin, Harvest Aquino, Hanjia Lyu, Jiebo Luo, Timothy Dye

Резюме на русском

## Контекст Исследование концепции исторической структурной оппортунии ставится перед трудностями в плане кросс-национальной стандартизации из-за того, что каждая страна имеет свои уникальные истории исключения, колонизации и социальных статусов. Это влечет за собой зачастую использование готовых индексов, которые ориентированы на материальные ресурсы, но могут недооценивать идентичностно-ориентированные формы исключения. Мы предлагаем новую модель измерения оппортунии, использующую большие языковые модели (LLMs), чтобы создавать контекстуальные оценки жизненных условий в прошлом с различных геополитических позиций. Наш подход использует тексты, построенные на самоопределении этнического статуса, из многоязычного исследования COVID-19, чтобы вызывать обобщенные и теоретически обоснованные оценки оппортунии. ## Метод Методология состоит в том, чтобы применять LLM-модели к самостоятельно описанным этническим классификаторам, спутним словам и ситуациям, которые могут содержать идентичностно-ориентированные отметки. Мы разработали поточку работы, где эти модели производят оценки оппортунии в контексте национальных и региональных историй. Это делается при помощи многоключевых моделей, которые могут выдавать разные сложности в разных географических условиях. Также мы используем правила, чтобы гарантировать, что модели дают понятные и теоретически обоснованные оценки, которые могут быть сравнены в разных исторических ситуациях. ## Результаты Мы проводили эксперименты с несколькими моделями, включая BERT, RoBERTa и XLM-R. Мы показали, что когда модели получают дополнительные контексты в виде этнического содержания, они дают более точные и целостные оценки. Наши результаты показывают, что модели могут корректно измерить отношение к идентичности в плоскости исторических исключений, включая временные шкалы и географические различия. Мы также показали, что наш подход может быть связан с другими индексами оппортунии, чтобы обеспечить кросс-культурную прозрачность в широком диапазоне географических и исторических условий. ## Значимость Наш подход может быть употреблен в различных областях, включая исторические исследования, публичное здравоохранение и политические дискуссии. Он предоставляет новый способ измерения исторических форм исключения, не привязанный к материальной оценке, но фокусирующийся на идентичности и культурных особенностях. Это может помочь в понимании того, как исторические взаимоотношения влияют на современные проблемы, например, в п

Abstract

Traditional efforts to measure historical structural oppression struggle with cross-national validity due to the unique, locally specified histories of exclusion, colonization, and social status in each country, and often have relied on structured indices that privilege material resources while overlooking lived, identity-based exclusion. We introduce a novel framework for oppression measurement that leverages Large Language Models (LLMs) to generate context-sensitive scores of lived historical disadvantage across diverse geopolitical settings. Using unstructured self-identified ethnicity utterances from a multilingual COVID-19 global study, we design rule-guided prompting strategies that encourage models to produce interpretable, theoretically grounded estimations of oppression. We systematically evaluate these strategies across multiple state-of-the-art LLMs. Our results demonstrate that LLMs, when guided by explicit rules, can capture nuanced forms of identity-based historical oppression within nations. This approach provides a complementary measurement tool that highlights dimensions of systemic exclusion, offering a scalable, cross-cultural lens for understanding how oppression manifests in data-driven research and public health contexts. To support reproducible evaluation, we release an open-sourced benchmark dataset for assessing LLMs on oppression measurement (https://github.com/chattergpt/llm-oppression-benchmark).

Ссылки и действия