Assessing Historical Structural Oppression Worldwide via Rule-Guided Prompting of Large Language Models
2509.15216v1
cs.CL, cs.CY
2025-09-20
Авторы:
Sreejato Chatterjee, Linh Tran, Quoc Duy Nguyen, Roni Kirson, Drue Hamlin, Harvest Aquino, Hanjia Lyu, Jiebo Luo, Timothy Dye
Резюме на русском
## Контекст
Исследование концепции исторической структурной оппортунии ставится перед трудностями в плане кросс-национальной стандартизации из-за того, что каждая страна имеет свои уникальные истории исключения, колонизации и социальных статусов. Это влечет за собой зачастую использование готовых индексов, которые ориентированы на материальные ресурсы, но могут недооценивать идентичностно-ориентированные формы исключения. Мы предлагаем новую модель измерения оппортунии, использующую большие языковые модели (LLMs), чтобы создавать контекстуальные оценки жизненных условий в прошлом с различных геополитических позиций. Наш подход использует тексты, построенные на самоопределении этнического статуса, из многоязычного исследования COVID-19, чтобы вызывать обобщенные и теоретически обоснованные оценки оппортунии.
## Метод
Методология состоит в том, чтобы применять LLM-модели к самостоятельно описанным этническим классификаторам, спутним словам и ситуациям, которые могут содержать идентичностно-ориентированные отметки. Мы разработали поточку работы, где эти модели производят оценки оппортунии в контексте национальных и региональных историй. Это делается при помощи многоключевых моделей, которые могут выдавать разные сложности в разных географических условиях. Также мы используем правила, чтобы гарантировать, что модели дают понятные и теоретически обоснованные оценки, которые могут быть сравнены в разных исторических ситуациях.
## Результаты
Мы проводили эксперименты с несколькими моделями, включая BERT, RoBERTa и XLM-R. Мы показали, что когда модели получают дополнительные контексты в виде этнического содержания, они дают более точные и целостные оценки. Наши результаты показывают, что модели могут корректно измерить отношение к идентичности в плоскости исторических исключений, включая временные шкалы и географические различия. Мы также показали, что наш подход может быть связан с другими индексами оппортунии, чтобы обеспечить кросс-культурную прозрачность в широком диапазоне географических и исторических условий.
## Значимость
Наш подход может быть употреблен в различных областях, включая исторические исследования, публичное здравоохранение и политические дискуссии. Он предоставляет новый способ измерения исторических форм исключения, не привязанный к материальной оценке, но фокусирующийся на идентичности и культурных особенностях. Это может помочь в понимании того, как исторические взаимоотношения влияют на современные проблемы, например, в п
Abstract
Traditional efforts to measure historical structural oppression struggle with
cross-national validity due to the unique, locally specified histories of
exclusion, colonization, and social status in each country, and often have
relied on structured indices that privilege material resources while
overlooking lived, identity-based exclusion. We introduce a novel framework for
oppression measurement that leverages Large Language Models (LLMs) to generate
context-sensitive scores of lived historical disadvantage across diverse
geopolitical settings. Using unstructured self-identified ethnicity utterances
from a multilingual COVID-19 global study, we design rule-guided prompting
strategies that encourage models to produce interpretable, theoretically
grounded estimations of oppression. We systematically evaluate these strategies
across multiple state-of-the-art LLMs. Our results demonstrate that LLMs, when
guided by explicit rules, can capture nuanced forms of identity-based
historical oppression within nations. This approach provides a complementary
measurement tool that highlights dimensions of systemic exclusion, offering a
scalable, cross-cultural lens for understanding how oppression manifests in
data-driven research and public health contexts. To support reproducible
evaluation, we release an open-sourced benchmark dataset for assessing LLMs on
oppression measurement
(https://github.com/chattergpt/llm-oppression-benchmark).
Ссылки и действия
Дополнительные ресурсы: