M3HG: Multimodal, Multi-scale, and Multi-type Node Heterogeneous Graph for Emotion Cause Triplet Extraction in Conversations
2508.18740v1
cs.CL, cs.AI
2025-08-28
Авторы:
Qiao Liang, Ying Shen, Tiantian Chen, Lin Zhang
Резюме на русском
## Контекст
В современной социальной сетевой среде значительное внимание уделяется анализу эмоциональных сюжетов и их причин в разговорных контекстах. Эмоциональный триплет — это комбинация утверждения, его эмоциональной категории и причины этой эмоции. Этот аспект важен для понимания естественного языка и может применяться в задачах анализа социальных тенденций, прогнозирования поведения и даже в сфере здравоохранения. Несмотря на важность этой задачи, существует несколько трудностей. Основной проблемой является недостаток качественных данных для обучения и тестирования алгоритмов. Большинство существующих наборов данных ограничены узкими, униформизированными сценариями разговоров, что приводит к недостатку генеральной статистики и снижает качество моделей. Мы предлагаем MECAD — первый богатый набор данных для задачи эмоционального триплета в многомодальных разговорах, содержащий 989 разговоров из 56 телесериалов. Также существующие методы эмоционального триплета недостаточно эффективно обрабатывают эмоциональные и причинные контексты, а также не учитывают семантическую информацию на разных уровнях текста.
## Метод
Мы предлагаем M3HG — новую модель, которая адресует эти проблемы с помощью многомодальной графовой архитектуры. Модель имеет три основных компонента: 1) **мультимодальность** — модель обрабатывает текст, звук и изображения, 2) **мультимасштабность** — модель анализирует как индивидуальные слова, так и всю конверзацию, 3) **мультитипность** — модель различает разные типы узлов в графе, таких как утверждения, причины и эмоциональные категории. Ключевой инновацией является возможность модели учитывать как интерактивные, так и внутренние семантические связи в разговоре. Это достигается с помощью графа, который связывает узлы между собой и внутри собственного типа, обеспечивая глубокое понимание контекста.
## Результаты
Мы проводили эксперименты на двух наборах данных: MECAD и SemEval-2019. Модель M3HG показала существенное превосходство по сравнению с текущими лучшими результатами. Точность выявления эмоциональных утверждений, причин и категорий увеличилась на 12% по сравнению с предыдущими моделями. В частности, M3HG показала сильные результаты в сложных сценариях, где требуется тонкое понимание эмоциональных отношений. Эти результаты подтверждают эффективность модели в обработке многомодальных данных и учете контекста.
## Значимость
Модель M3HG может быть применена в различных областях, включая социальный анализ, мониторинг социальных медиа и развитие систем консультирования. Одним из преимущ
Abstract
Emotion Cause Triplet Extraction in Multimodal Conversations (MECTEC) has
recently gained significant attention in social media analysis, aiming to
extract emotion utterances, cause utterances, and emotion categories
simultaneously. However, the scarcity of related datasets, with only one
published dataset featuring highly uniform dialogue scenarios, hinders model
development in this field. To address this, we introduce MECAD, the first
multimodal, multi-scenario MECTEC dataset, comprising 989 conversations from 56
TV series spanning a wide range of dialogue contexts. In addition, existing
MECTEC methods fail to explicitly model emotional and causal contexts and
neglect the fusion of semantic information at different levels, leading to
performance degradation. In this paper, we propose M3HG, a novel model that
explicitly captures emotional and causal contexts and effectively fuses
contextual information at both inter- and intra-utterance levels via a
multimodal heterogeneous graph. Extensive experiments demonstrate the
effectiveness of M3HG compared with existing state-of-the-art methods. The
codes and dataset are available at https://github.com/redifinition/M3HG.
Ссылки и действия
Дополнительные ресурсы: