Reference Points in LLM Sentiment Analysis: The Role of Structured Context
2508.11454v1
cs.CL, cs.AI
2025-08-19
Авторы:
Junichiro Niimi
Резюме на русском
## Контекст
Область исследования — sentiment analysis (SA), которая направлена на понимание человеческого мнения, чувств и отношений к разным объектам с помощью технических методов. Традиционно SA применяется в маркетинге для того, чтобы понять потребительские предпочтения. Существуют различные методологии SA, но большинство из них ограничиваются анализом текста отзывов. Однако маркетинговые теории, такие как **проспектная теория** и **теория ожиданий-расхождений**, подчеркивают, что оценки потребителей не только влияют на самом деле на опыт, но и способствуют дополнительным справочным точкам. Этот фактор может оказать влияние на то, как потребители интерпретируют свои опыты. Несмотря на то, что многие NLP-исследования стремятся к точному классификации отзывов, нет достаточных исследований, которые бы изучили влияние дополнительных справочных точек на SA. Этот факт мотивирует нас для разработки и исследования, как дополнительные справочные точки могут влиять на точность SA при использовании LLMs.
## Метод
Для исследования мы используем сверточную LLM с 3 миллиардами параметров. Для проведения экспериментов мы создаем две версии образца пробы: **NL** (натуральный язык) и **JSON** (форматированный). Эти две версии образца пробы содержат одинаковую информацию, но в разных форматах. JSON-формат включает дополнительную справочную информацию, такую как рейтинги, объекты и другие справочные данные. Мы используем две категории отзывов — **рестораны** и **ночная жизнь** — из Yelp-сервиса. Эти категории были выбраны потому, что они позволяют провести компаративное исследование, в котором отзывы о разных типах бизнесов могут быть сравниваться. Мы точно измеряем точность SA, используя метрики **Macro-F1** и **RMSE**. Также мы проводим анализ, чтобы понять, влияет ли результат на реальное контекстное обоснование или просто на прокси-метрики.
## Результаты
Эксперименты показали, что JSON-формат пробы позволяет достичь значительных улучшений в точности SA в сравнении с NL-форматом. На **ресторанах**, где используется JSON-формат, Macro-F1 увеличивается на **1.6%**, а RMSE уменьшается на **16%**. На **ночной жизни**, JSON-формат повышает Macro-F1 на **4%**, а RMSE уменьшается на **9.1%**. Эти результаты показывают, что добавление справочной информации в формате JSON позволяет повысить точность SA, даже без требующегося дополнительного моделирования. Последующий анализ показывает, что эти улучшения являются связаны с контекстным логическим мышлением, а не с прокси-метриками, что делает JSON-формат более эффективным.
## Значимость
Наши рез
Abstract
Large language models (LLMs) are now widely used across many fields,
including marketing research. Sentiment analysis, in particular, helps firms
understand consumer preferences. While most NLP studies classify sentiment from
review text alone, marketing theories, such as prospect theory and
expectation--disconfirmation theory, point out that customer evaluations are
shaped not only by the actual experience but also by additional reference
points. This study therefore investigates how the content and format of such
supplementary information affect sentiment analysis using LLMs. We compare
natural language (NL) and JSON-formatted prompts using a lightweight 3B
parameter model suitable for practical marketing applications. Experiments on
two Yelp categories (Restaurant and Nightlife) show that the JSON prompt with
additional information outperforms all baselines without fine-tuning: Macro-F1
rises by 1.6% and 4% while RMSE falls by 16% and 9.1%, respectively, making it
deployable in resource-constrained edge devices. Furthermore, a follow-up
analysis confirms that performance gains stem from genuine contextual reasoning
rather than label proxying. This work demonstrates that structured prompting
can enable smaller models to achieve competitive performance, offering a
practical alternative to large-scale model deployment.
Ссылки и действия
Дополнительные ресурсы: