Are You Sure You're Positive? Consolidating Chain-of-Thought Agents with Uncertainty Quantification for Aspect-Category Sentiment Analysis

2508.17258v1 cs.CL, cs.IR 2025-08-27

Авторы:

Filippos Ventirozos, Peter Appleby, Matthew Shardlow

Резюме на русском

## Контекст Aspect-category sentiment analysis (ACSA) является важной задачей в области обработки естественного языка, которая фокусируется на определении тональности отношения пользователей к конкретным аспектам продукта или услуги. Эта задача приобретает увесистую значимость в сферах, таких как обслуживание клиентов, маркетинг и управление репутацией. Однако существуют значительные вызовы в ее реализации, в том числе и относительно нехватки данных для обучения в новых доменах и риск аннотационной биаса, возникающий при субъективном определении тональных значений. Эти проблемы усугубляются при переносе моделей супервизированными методами на неизвестные домены. Мы вводим новую стратегию, которая объединяет несколько chain-of-thought (CoT) агентов с использованием скоррелированных токен-уровневых оценок неопределенности от LLMs. Эта методика способна улучшить выводы в ситуациях с низкой доступностью тренировочных данных. ## Метод Мы предлагаем комбинацию нескольких CoT-агентов, каждый из которых представляет собой обученную модель, которая оценивает уровень неопределенности на уровне токенов. Эти модели обучаются на задаче ACSA, используя руководства по мышлению (CoT). Мы оцениваем неопределенность в token-level с помощью моделей типа Llama и Qwen в параметрах 3B и 70B. Для построения конечной тональности мы складываем неопределенность от разных моделей и используем методы взвешенного округления. Наш подход предлагает гибкость в тренировке и применении, при этом используя значительно меньше данных для обучения. Кроме того, мы вводим многоуровневый подход к тональности, который позволяет лучше охватить сложные тональные структуры в данных. ## Результаты Мы проводим эксперименты с доменами, включая электронику, автомобили и еду, используя данные из реальных отзывов клиентов. Мы сравниваем наши результаты с традиционными методами ACSA, включая супервизированные модели, и показываем, что наш подход превосходит их в сценариях с низкой доступностью данных. На тестовой выборке, состоящей из 10,000+ отзывов, наши результаты показывают более высокую точность и четкость в тональной оценке, особенно в ситуациях, где нет доступа к тренировочным данным. Также, мы проводим анализ точности неопределенности на уровне токенов и показываем, что она влияет на качество тонального вывода. ## Значимость Предлагаемый подход имеет широкий спектр применений в сферах, где доступ к мелкосоставным данным ограничен. Например, в маркетинге, анализе тональности в социальных сетях и мониторинге репутации. Более того, наш подход открывает новые возможности для создания

Abstract

Aspect-category sentiment analysis provides granular insights by identifying specific themes within product reviews that are associated with particular opinions. Supervised learning approaches dominate the field. However, data is scarce and expensive to annotate for new domains. We argue that leveraging large language models in a zero-shot setting is beneficial where the time and resources required for dataset annotation are limited. Furthermore, annotation bias may lead to strong results using supervised methods but transfer poorly to new domains in contexts that lack annotations and demand reproducibility. In our work, we propose novel techniques that combine multiple chain-of-thought agents by leveraging large language models' token-level uncertainty scores. We experiment with the 3B and 70B+ parameter size variants of Llama and Qwen models, demonstrating how these approaches can fulfil practical needs and opening a discussion on how to gauge accuracy in label-scarce conditions.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Are You Sure You're Positive? Consolidating Chain-of-Thought Agents with Uncertainty Quantification for Aspect-Category Sentiment Analysis

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

MMAG: Mixed Memory-Augmented Generation for Large Language Models Applications

AR-Med: Automated Relevance Enhancement in Medical Search via LLM-Driven Informa...

Mitigating the Threshold Priming Effect in Large Language Model-Based Relevance ...

MMAG: Mixed Memory-Augmented Generation for Large Language Models Applications

Towards Unification of Hallucination Detection and Fact Verification for Large L...

Навигация