MME-Emotion: A Holistic Evaluation Benchmark for Emotional Intelligence in Multimodal Large Language Models

2508.09210v1 cs.CV, cs.AI 2025-08-15

Авторы:

Fan Zhang, Zebang Cheng, Chong Deng, Haoxuan Li, Zheng Lian, Qian Chen, Huadai Liu, Wen Wang, Yi-Fan Zhang, Renrui Zhang, Ziyu Guo, Zhihong Zhu, Hao Wu, Haixin Wang, Yefeng Zheng, Xiaojiang Peng, Xian Wu, Kun Wang, Xiangang Li, Jieping Ye, Pheng-Ann Heng

Резюме на русском

## Контекст В последние годы значительные усилия в области искусственного интеллекта уделялись развитию мультимодальных боLARGE LANGUAGE MODELS (MLLMs), которые включают в себя различные модальности информации, такие как текст, изображения и аудио. Одним из ключевых аспектов этих моделей является их эмоциональная интеллектуальность (emotional intelligence, EI), которая включает в себя возможности распознавания и синтеза эмоций, а также вывод эмоциональных состояний на основе логического рассуждения. Несмотря на прогресс в методологиях, существует значительные ограничения в существующих эмоциональных бенчмарках. Они не полностью отражают способность MLLMs общаться в различных сценариях и выявлять основные факторы, вызывающие эмоциональные состояния. Было запрошено разработать более полный бенчмарк, который мог бы оценивать способности MLLMs к эмоциональному рассуждению в различных условиях. ## Метод Многомодальный бенчмарк **MME-Emotion** был разработан для оценки способностей MLLMs к эмоциональному пониманию и рассуждению. Он представляет собой систематический подход к эмоциональной интеллектуальности, предлагая **скалярную возможность**, **разнообразные условия** и **объединенные протоколы**. Он включает **6000+ видеоклипов** с задачами вопроса-ответа (QA), специально созданными для целей оценки, покрывающих широкий спектр ситуаций. Данные были специально подготовлены для формирования **восьми эмоциональных задач**, включая распознавание эмоций, вывод эмоциональных состояний, и т.д. Бенчмарк также включает в себя **гибридные метрики** для оценки эмоционального распознавания и рассуждения, анализируемых через **многоагентную систему**. ## Результаты Результаты экспериментов были получены с использованием 20 различных MLLMs. Модели были оценены на своих способностях к распознаванию эмоций и выводу эмоциональных состояний в разных сценариях. Общая производительность MLLMs оказалась достаточно низкой, с топ-моделью достигающей **39.3%** в эмоциональном распознавании и **56.0%** в Chain-of-Thought (CoT) рассуждении. Это указывает на существующие ограничения в их эмоциональной интеллектуальности. Были выявлены различия между **обобщенными** и **специализированными** моделями: **обобщенные модели** (например, Gemini-2.5-Pro) показали достаточно высокую производительность за счет общей мультимодальной подготовки, в то время как **специализированные модели** (например, R1-Omni) достигли похожих результатов с помощью дополнительной адаптации к конкретным задачам. ## Значимость Бенчмарк **M

Abstract

Recent advances in multimodal large language models (MLLMs) have catalyzed transformative progress in affective computing, enabling models to exhibit emergent emotional intelligence. Despite substantial methodological progress, current emotional benchmarks remain limited, as it is still unknown: (a) the generalization abilities of MLLMs across distinct scenarios, and (b) their reasoning capabilities to identify the triggering factors behind emotional states. To bridge these gaps, we present \textbf{MME-Emotion}, a systematic benchmark that assesses both emotional understanding and reasoning capabilities of MLLMs, enjoying \textit{scalable capacity}, \textit{diverse settings}, and \textit{unified protocols}. As the largest emotional intelligence benchmark for MLLMs, MME-Emotion contains over 6,000 curated video clips with task-specific questioning-answering (QA) pairs, spanning broad scenarios to formulate eight emotional tasks. It further incorporates a holistic evaluation suite with hybrid metrics for emotion recognition and reasoning, analyzed through a multi-agent system framework. Through a rigorous evaluation of 20 advanced MLLMs, we uncover both their strengths and limitations, yielding several key insights: \ding{182} Current MLLMs exhibit unsatisfactory emotional intelligence, with the best-performing model achieving only $39.3\%$ recognition score and $56.0\%$ Chain-of-Thought (CoT) score on our benchmark. \ding{183} Generalist models (\emph{e.g.}, Gemini-2.5-Pro) derive emotional intelligence from generalized multimodal understanding capabilities, while specialist models (\emph{e.g.}, R1-Omni) can achieve comparable performance through domain-specific post-training adaptation. By introducing MME-Emotion, we hope that it can serve as a foundation for advancing MLLMs' emotional intelligence in the future.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

MME-Emotion: A Holistic Evaluation Benchmark for Emotional Intelligence in Multimodal Large Language Models

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Dual-Stream Spectral Decoupling Distillation for Remote Sensing Object Detection

Explainable Parkinsons Disease Gait Recognition Using Multimodal RGB-D Fusion an...

GuidNoise: Single-Pair Guided Diffusion for Generalized Noise Synthesis

PhyVLLM: Physics-Guided Video Language Model with Motion-Appearance Disentanglem...

Detection of Intoxicated Individuals from Facial Video Sequences via a Recurrent...

Навигация