M3HG: Multimodal, Multi-scale, and Multi-type Node Heterogeneous Graph for Emotion Cause Triplet Extraction in Conversations

2508.18740v1 cs.CL, cs.AI 2025-08-28

Авторы:

Qiao Liang, Ying Shen, Tiantian Chen, Lin Zhang

Резюме на русском

## Контекст В современной социальной сетевой среде значительное внимание уделяется анализу эмоциональных сюжетов и их причин в разговорных контекстах. Эмоциональный триплет — это комбинация утверждения, его эмоциональной категории и причины этой эмоции. Этот аспект важен для понимания естественного языка и может применяться в задачах анализа социальных тенденций, прогнозирования поведения и даже в сфере здравоохранения. Несмотря на важность этой задачи, существует несколько трудностей. Основной проблемой является недостаток качественных данных для обучения и тестирования алгоритмов. Большинство существующих наборов данных ограничены узкими, униформизированными сценариями разговоров, что приводит к недостатку генеральной статистики и снижает качество моделей. Мы предлагаем MECAD — первый богатый набор данных для задачи эмоционального триплета в многомодальных разговорах, содержащий 989 разговоров из 56 телесериалов. Также существующие методы эмоционального триплета недостаточно эффективно обрабатывают эмоциональные и причинные контексты, а также не учитывают семантическую информацию на разных уровнях текста. ## Метод Мы предлагаем M3HG — новую модель, которая адресует эти проблемы с помощью многомодальной графовой архитектуры. Модель имеет три основных компонента: 1) **мультимодальность** — модель обрабатывает текст, звук и изображения, 2) **мультимасштабность** — модель анализирует как индивидуальные слова, так и всю конверзацию, 3) **мультитипность** — модель различает разные типы узлов в графе, таких как утверждения, причины и эмоциональные категории. Ключевой инновацией является возможность модели учитывать как интерактивные, так и внутренние семантические связи в разговоре. Это достигается с помощью графа, который связывает узлы между собой и внутри собственного типа, обеспечивая глубокое понимание контекста. ## Результаты Мы проводили эксперименты на двух наборах данных: MECAD и SemEval-2019. Модель M3HG показала существенное превосходство по сравнению с текущими лучшими результатами. Точность выявления эмоциональных утверждений, причин и категорий увеличилась на 12% по сравнению с предыдущими моделями. В частности, M3HG показала сильные результаты в сложных сценариях, где требуется тонкое понимание эмоциональных отношений. Эти результаты подтверждают эффективность модели в обработке многомодальных данных и учете контекста. ## Значимость Модель M3HG может быть применена в различных областях, включая социальный анализ, мониторинг социальных медиа и развитие систем консультирования. Одним из преимущ

Abstract

Emotion Cause Triplet Extraction in Multimodal Conversations (MECTEC) has recently gained significant attention in social media analysis, aiming to extract emotion utterances, cause utterances, and emotion categories simultaneously. However, the scarcity of related datasets, with only one published dataset featuring highly uniform dialogue scenarios, hinders model development in this field. To address this, we introduce MECAD, the first multimodal, multi-scenario MECTEC dataset, comprising 989 conversations from 56 TV series spanning a wide range of dialogue contexts. In addition, existing MECTEC methods fail to explicitly model emotional and causal contexts and neglect the fusion of semantic information at different levels, leading to performance degradation. In this paper, we propose M3HG, a novel model that explicitly captures emotional and causal contexts and effectively fuses contextual information at both inter- and intra-utterance levels via a multimodal heterogeneous graph. Extensive experiments demonstrate the effectiveness of M3HG compared with existing state-of-the-art methods. The codes and dataset are available at https://github.com/redifinition/M3HG.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

M3HG: Multimodal, Multi-scale, and Multi-type Node Heterogeneous Graph for Emotion Cause Triplet Extraction in Conversations

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Prompting-in-a-Series: Psychology-Informed Contents and Embeddings for Personali...

Leveraging KV Similarity for Online Structured Pruning in LLMs

Persian-Phi: Efficient Cross-Lingual Adaptation of Compact LLMs via Curriculum L...

LIME: Making LLM Data More Efficient with Linguistic Metadata Embeddings

SPAD: Seven-Source Token Probability Attribution with Syntactic Aggregation for ...

Навигация