ECMF: Enhanced Cross-Modal Fusion for Multimodal Emotion Recognition in MER-SEMI Challenge

2508.05991v1 cs.CV, cs.AI, cs.CY 2025-08-12

Авторы:

Juewen Hu, Yexin Li, Jiulin Li, Shuo Chen, Pring Wong

Резюме на русском

## Контекст Эмоциональное распознавание (emotion recognition) является ключевым компонентом современных систем интерактивных технологий, таких как конференц-сервисы, диагностика психиатрических расстройств и улучшение опыта пользователя в системах беспилотных автомобилей. Однако существуют значительные проблемы, связанные с данными, в частности, недостаточностью и помехами в телеметрических данных, что существенно снижает точность распознавания эмоций. Это затрудняет развитие эффективных методов для решения задачи эмоционального распознавания в широких приложениях. Мы разработали рам framework, который адресует эти проблемы, обеспечивая более точное и устойчивое распознавание эмоций в мультимодальных системах. ## Метод Мы предлагаем **ECMF (Enhanced Cross-Modal Fusion)** — расширенный метод для взаимодействия между модальностями, который использует большие предварительно обученные модели для эффективного извлечения информативных признаков из визуальных, аудио и текстовых данных. Для визуальных данных, мы используем двух branch-проекцию: глобальные фичи кадров и локальные фичи лиц, которые обрабатываются индивидуально. Для текстовых данных, мы применяем контекст-улучшенный метод, который включает значительные эмоциональные признаки через лонг лэнгвэй модели. Для объединения этих модальностей, мы предлагаем стратегию с само-аттенцией для динамического взвешивания модальностей, а также резидентные связи для сохранения исходных представлений. ## Результаты Мы проводили эксперименты на датасете MER2025-SEMI, сравнивая нашу модель с официальным базовым решением. Наша модель показала значительное улучшение во весьма весомом F-меры на уровне 87.49%, что значительно превосходит официальный базовый результат 78.63%. Это демонстрирует эффективность нашего подхода в обработке мультимодальных эмоциональных сигналов и улучшении результатов распознавания. ## Значимость Наш подход может применяться в сферах, где эмоциональное распознавание имеет ключевое значение, включая медицину, образование и интерактивные системы. Он предлагает значительные преимущества, включая высокую точность распознавания, устойчивость к помехам в данных и универсальность, применимость к разным модальностям. Мы ожидаем, что наша работа способствует развитию технологий эмоционального распознавания в широких сферах применения. ## Выводы Мы представили ECMF, расширенный метод для эффективного взаимодействия между модальностями в задаче эмоционального распознавания. Наши результаты показали значительное улучшение над официальным базовым решением в MER2025-SEMI. Будущ

Abstract

Emotion recognition plays a vital role in enhancing human-computer interaction. In this study, we tackle the MER-SEMI challenge of the MER2025 competition by proposing a novel multimodal emotion recognition framework. To address the issue of data scarcity, we leverage large-scale pre-trained models to extract informative features from visual, audio, and textual modalities. Specifically, for the visual modality, we design a dual-branch visual encoder that captures both global frame-level features and localized facial representations. For the textual modality, we introduce a context-enriched method that employs large language models to enrich emotional cues within the input text. To effectively integrate these multimodal features, we propose a fusion strategy comprising two key components, i.e., self-attention mechanisms for dynamic modality weighting, and residual connections to preserve original representations. Beyond architectural design, we further refine noisy labels in the training set by a multi-source labeling strategy. Our approach achieves a substantial performance improvement over the official baseline on the MER2025-SEMI dataset, attaining a weighted F-score of 87.49% compared to 78.63%, thereby validating the effectiveness of the proposed framework.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

ECMF: Enhanced Cross-Modal Fusion for Multimodal Emotion Recognition in MER-SEMI Challenge

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Explainable Deep Learning for Brain Tumor Classification: Comprehensive Benchmar...

Where Culture Fades: Revealing the Cultural Gap in Text-to-Image Generation

Deploying Rapid Damage Assessments from sUAS Imagery for Disaster Response

Навигация