Are You Sure You're Positive? Consolidating Chain-of-Thought Agents with Uncertainty Quantification for Aspect-Category Sentiment Analysis
2508.17258v1
cs.CL, cs.IR
2025-08-27
Авторы:
Filippos Ventirozos, Peter Appleby, Matthew Shardlow
Резюме на русском
## Контекст
Aspect-category sentiment analysis (ACSA) является важной задачей в области обработки естественного языка, которая фокусируется на определении тональности отношения пользователей к конкретным аспектам продукта или услуги. Эта задача приобретает увесистую значимость в сферах, таких как обслуживание клиентов, маркетинг и управление репутацией. Однако существуют значительные вызовы в ее реализации, в том числе и относительно нехватки данных для обучения в новых доменах и риск аннотационной биаса, возникающий при субъективном определении тональных значений. Эти проблемы усугубляются при переносе моделей супервизированными методами на неизвестные домены. Мы вводим новую стратегию, которая объединяет несколько chain-of-thought (CoT) агентов с использованием скоррелированных токен-уровневых оценок неопределенности от LLMs. Эта методика способна улучшить выводы в ситуациях с низкой доступностью тренировочных данных.
## Метод
Мы предлагаем комбинацию нескольких CoT-агентов, каждый из которых представляет собой обученную модель, которая оценивает уровень неопределенности на уровне токенов. Эти модели обучаются на задаче ACSA, используя руководства по мышлению (CoT). Мы оцениваем неопределенность в token-level с помощью моделей типа Llama и Qwen в параметрах 3B и 70B. Для построения конечной тональности мы складываем неопределенность от разных моделей и используем методы взвешенного округления. Наш подход предлагает гибкость в тренировке и применении, при этом используя значительно меньше данных для обучения. Кроме того, мы вводим многоуровневый подход к тональности, который позволяет лучше охватить сложные тональные структуры в данных.
## Результаты
Мы проводим эксперименты с доменами, включая электронику, автомобили и еду, используя данные из реальных отзывов клиентов. Мы сравниваем наши результаты с традиционными методами ACSA, включая супервизированные модели, и показываем, что наш подход превосходит их в сценариях с низкой доступностью данных. На тестовой выборке, состоящей из 10,000+ отзывов, наши результаты показывают более высокую точность и четкость в тональной оценке, особенно в ситуациях, где нет доступа к тренировочным данным. Также, мы проводим анализ точности неопределенности на уровне токенов и показываем, что она влияет на качество тонального вывода.
## Значимость
Предлагаемый подход имеет широкий спектр применений в сферах, где доступ к мелкосоставным данным ограничен. Например, в маркетинге, анализе тональности в социальных сетях и мониторинге репутации. Более того, наш подход открывает новые возможности для создания
Abstract
Aspect-category sentiment analysis provides granular insights by identifying
specific themes within product reviews that are associated with particular
opinions. Supervised learning approaches dominate the field. However, data is
scarce and expensive to annotate for new domains. We argue that leveraging
large language models in a zero-shot setting is beneficial where the time and
resources required for dataset annotation are limited. Furthermore, annotation
bias may lead to strong results using supervised methods but transfer poorly to
new domains in contexts that lack annotations and demand reproducibility. In
our work, we propose novel techniques that combine multiple chain-of-thought
agents by leveraging large language models' token-level uncertainty scores. We
experiment with the 3B and 70B+ parameter size variants of Llama and Qwen
models, demonstrating how these approaches can fulfil practical needs and
opening a discussion on how to gauge accuracy in label-scarce conditions.
Ссылки и действия
Дополнительные ресурсы: