Can Large Language Models Generate Effective Datasets for Emotion Recognition in Conversations?

2508.05474v1 cs.AI, cs.CL 2025-08-08
Авторы:

Burak Can Kaplan, Hugo Cesar De Castro Carneiro, Stefan Wermter

Резюме на русском

## КОНТЕКСТ И ПРОБЛЕМАТИКА Распознавание эмоций в разговорном контексте (Emotion Recognition in Conversations, ERC) является ключевой задачей в области компьютерного зрения и естественного языкового обработки, направленной на понимание динамики эмоций в разговоре. Эта задача имеет большое значение для развития машинного интеллекта, так как она позволяет моделям понимать не только слова, но и эмоциональное состояние участников взаимодействия. Однако, несмотря на значимость ERC, существующие датасеты часто страдают от недостатков, таких как высокая субъективность и неточность аннотаций (soft labels), а также биасы, возникающие из-за ограниченного источника данных. Кроме того, разработка датасетов для ERC — задача трудоемкая и дорогостоящая, требующая тщательного анализа и аннотирования данных. Это ограничивает разнообразие и качество доступных ресурсов, что в свою очередь затрудняет создание эффективных моделей распознавания эмоций. Недавно, большие языковые модели (Large Language Models, LLMs) показали высокую эффективность в различных задачах, связанных с обработкой естественного языка, но их применение для генерации данных в ERC остается ограниченным из-за высоких затрат на их обучение и неопределенности качества генерируемых данных. В этой работе авторы предлагают решение этих проблем путем использования небольшой, эффективной и общецелевой LLM для генерации датасетов ERC. Целью является создание разнообразных и качественных данных, которые могут дополнить существующие датасеты и помочь в улучшении моделей распознавания эмоций. ## ПРЕДЛОЖЕННЫЙ МЕТОД Авторы используют небольшую, но мощную LLM для генерации датасетов ERC. Эта модель обучена на общих данных и применяется для синтеза конверсационных диалогов с различными эмоциональными состояниями. Генерируемые датасеты содержат разнообразные свойства, такие как различные контексты разговора, эмоциональные переходы и неоднозначность эмоций, что позволяет создать более реалистичные и разнообразные данные. В рамках исследования было сгенерировано шесть новых датасетов, каждый из которых предназначен для дополнения одного из трех существующих ERC-бенчмарков. Два датасета были специально сконструированы для каждого из этих бенчмарков, с целью улучшения их разнообразия и качества. Авторы также учитывают проблему несбалансированности данных (label imbalance), которая может влиять на производительность моделей. Для этого были разработаны методы для анализа и коррекции несбалансированности в генерируемых датасетах. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Авторы провели ряд экспериментов для оценки эффективности генерируемых датасетов. Они обучили модели распознавания эмоций на генерируемых датасетах и проверили их производительность на существующих ERC-бенчмарках. Результаты показали, что модели, обученные на новых датасетах, демонстрируют высокую производительность и робастность, а также показывают статистически значимые улучшения по сравнению с моделями, обученными только на оригинальных датасетах. Кроме того, авторы проанализировали влияние несбалансированности данных на производительность моделей. Они показали, что генерируемые датасеты помогают снизить негативное влияние несбалансированности, улучшив работу моделей на менее представленных эмоциональных категориях. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Предложенный метод имеет значительное практическое значение для разработки систем распознавания эмоций в разговорных контекстах. Генерация датасетов с помощью LLMs позволяет создавать более разнообразные и реалистичные данные, что важно для улучшения общей производительности моделей ERC. Кроме того, этот подход может быть использован для коррекции несбалансированности данных, что является ключевым фактором для повышения точности и справедливости моделей. Потенциальные области применения включают в себя разработку технологий для автоматического анализа эмоционального тона в разговорных интерфейсах, а также улучшение систем общения человеком-машиной, где понимание эмоций играет важную роль. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ В работе было показано, что небольшие, ресурсоэффективные LLMs могут быть использованы для генерации высококачественных датасетов для ERC. Это открывает новые возможности для улучшения моделей распознавания эмоций, особенно в условиях ограниченных ресурсов. Будущие исследования могут фокусироваться на дальнейшем улучшении качества генерируемых данных, а также на расширении методологии для других задач, связанных с анализом эмоций в разговорных диалогах.

Abstract

Emotion recognition in conversations (ERC) focuses on identifying emotion shifts within interactions, representing a significant step toward advancing machine intelligence. However, ERC data remains scarce, and existing datasets face numerous challenges due to their highly biased sources and the inherent subjectivity of soft labels. Even though Large Language Models (LLMs) have demonstrated their quality in many affective tasks, they are typically expensive to train, and their application to ERC tasks--particularly in data generation--remains limited. To address these challenges, we employ a small, resource-efficient, and general-purpose LLM to synthesize ERC datasets with diverse properties, supplementing the three most widely used ERC benchmarks. We generate six novel datasets, with two tailored to enhance each benchmark. We evaluate the utility of these datasets to (1) supplement existing datasets for ERC classification, and (2) analyze the effects of label imbalance in ERC. Our experimental results indicate that ERC classifier models trained on the generated datasets exhibit strong robustness and consistently achieve statistically significant performance improvements on existing ERC benchmarks.

Ссылки и действия