Reasoning Beyond Labels: Measuring LLM Sentiment in Low-Resource, Culturally Nuanced Contexts
2508.04199v1
cs.CL
2025-08-09
Авторы:
Millicent Ochieng, Anja Thieme, Ignatius Ezeani, Risa Ueno, Samuel Maina, Keshet Ronen, Javier Gonzalez, Jacki O'Neill
Резюме на русском
Улучшение sentiment analysis в низкоресурсных, культурно гранулярных контекстах остается вызовом для традиционных NLP-подходов, которые считают sentiment фиксированным и универсальным. Мы предлагаем диагностический фреймворк, который расценивает sentiment как контекст-зависимое, культурно вложенное понятие, и исследуем, насколько хорошо large language models (LLMs) справляются с такой анализой в неформальных, code-mixed WhatsApp-сообщениях молодежи из Наироби. Для оценки моделей мы использовали как ручную аннотацию, так и сценарии с подменой sentiment-фраз, а также проверки с помощью раздельной оценки выводов по крупномасштабной рубрике. Наши результаты показывают, что передовые LLMs показывают более стабильные интерпретации, в то время как открытые модели склонны к недостаткам при абстрактности или смене sentiment. Этот подход, ориентированный на социологический метод измерения, подчеркивает необходимость развития culture-aware AI для точного измерения абстрактных понятий в real-world communication.
Abstract
Sentiment analysis in low-resource, culturally nuanced contexts challenges
conventional NLP approaches that assume fixed labels and universal affective
expressions. We present a diagnostic framework that treats sentiment as a
context-dependent, culturally embedded construct, and evaluate how large
language models (LLMs) reason about sentiment in informal, code-mixed WhatsApp
messages from Nairobi youth health groups. Using a combination of
human-annotated data, sentiment-flipped counterfactuals, and rubric-based
explanation evaluation, we probe LLM interpretability, robustness, and
alignment with human reasoning. Framing our evaluation through a social-science
measurement lens, we operationalize and interrogate LLMs outputs as an
instrument for measuring the abstract concept of sentiment. Our findings reveal
significant variation in model reasoning quality, with top-tier LLMs
demonstrating interpretive stability, while open models often falter under
ambiguity or sentiment shifts. This work highlights the need for culturally
sensitive, reasoning-aware AI evaluation in complex, real-world communication.
Ссылки и действия
Дополнительные ресурсы: