MME-Emotion: A Holistic Evaluation Benchmark for Emotional Intelligence in Multimodal Large Language Models
2508.09210v1
cs.CV, cs.AI
2025-08-15
Авторы:
Fan Zhang, Zebang Cheng, Chong Deng, Haoxuan Li, Zheng Lian, Qian Chen, Huadai Liu, Wen Wang, Yi-Fan Zhang, Renrui Zhang, Ziyu Guo, Zhihong Zhu, Hao Wu, Haixin Wang, Yefeng Zheng, Xiaojiang Peng, Xian Wu, Kun Wang, Xiangang Li, Jieping Ye, Pheng-Ann Heng
Резюме на русском
## Контекст
В последние годы значительные усилия в области искусственного интеллекта уделялись развитию мультимодальных боLARGE LANGUAGE MODELS (MLLMs), которые включают в себя различные модальности информации, такие как текст, изображения и аудио. Одним из ключевых аспектов этих моделей является их эмоциональная интеллектуальность (emotional intelligence, EI), которая включает в себя возможности распознавания и синтеза эмоций, а также вывод эмоциональных состояний на основе логического рассуждения. Несмотря на прогресс в методологиях, существует значительные ограничения в существующих эмоциональных бенчмарках. Они не полностью отражают способность MLLMs общаться в различных сценариях и выявлять основные факторы, вызывающие эмоциональные состояния. Было запрошено разработать более полный бенчмарк, который мог бы оценивать способности MLLMs к эмоциональному рассуждению в различных условиях.
## Метод
Многомодальный бенчмарк **MME-Emotion** был разработан для оценки способностей MLLMs к эмоциональному пониманию и рассуждению. Он представляет собой систематический подход к эмоциональной интеллектуальности, предлагая **скалярную возможность**, **разнообразные условия** и **объединенные протоколы**. Он включает **6000+ видеоклипов** с задачами вопроса-ответа (QA), специально созданными для целей оценки, покрывающих широкий спектр ситуаций. Данные были специально подготовлены для формирования **восьми эмоциональных задач**, включая распознавание эмоций, вывод эмоциональных состояний, и т.д. Бенчмарк также включает в себя **гибридные метрики** для оценки эмоционального распознавания и рассуждения, анализируемых через **многоагентную систему**.
## Результаты
Результаты экспериментов были получены с использованием 20 различных MLLMs. Модели были оценены на своих способностях к распознаванию эмоций и выводу эмоциональных состояний в разных сценариях. Общая производительность MLLMs оказалась достаточно низкой, с топ-моделью достигающей **39.3%** в эмоциональном распознавании и **56.0%** в Chain-of-Thought (CoT) рассуждении. Это указывает на существующие ограничения в их эмоциональной интеллектуальности. Были выявлены различия между **обобщенными** и **специализированными** моделями: **обобщенные модели** (например, Gemini-2.5-Pro) показали достаточно высокую производительность за счет общей мультимодальной подготовки, в то время как **специализированные модели** (например, R1-Omni) достигли похожих результатов с помощью дополнительной адаптации к конкретным задачам.
## Значимость
Бенчмарк **M
Abstract
Recent advances in multimodal large language models (MLLMs) have catalyzed
transformative progress in affective computing, enabling models to exhibit
emergent emotional intelligence. Despite substantial methodological progress,
current emotional benchmarks remain limited, as it is still unknown: (a) the
generalization abilities of MLLMs across distinct scenarios, and (b) their
reasoning capabilities to identify the triggering factors behind emotional
states. To bridge these gaps, we present \textbf{MME-Emotion}, a systematic
benchmark that assesses both emotional understanding and reasoning capabilities
of MLLMs, enjoying \textit{scalable capacity}, \textit{diverse settings}, and
\textit{unified protocols}. As the largest emotional intelligence benchmark for
MLLMs, MME-Emotion contains over 6,000 curated video clips with task-specific
questioning-answering (QA) pairs, spanning broad scenarios to formulate eight
emotional tasks. It further incorporates a holistic evaluation suite with
hybrid metrics for emotion recognition and reasoning, analyzed through a
multi-agent system framework. Through a rigorous evaluation of 20 advanced
MLLMs, we uncover both their strengths and limitations, yielding several key
insights: \ding{182} Current MLLMs exhibit unsatisfactory emotional
intelligence, with the best-performing model achieving only $39.3\%$
recognition score and $56.0\%$ Chain-of-Thought (CoT) score on our benchmark.
\ding{183} Generalist models (\emph{e.g.}, Gemini-2.5-Pro) derive emotional
intelligence from generalized multimodal understanding capabilities, while
specialist models (\emph{e.g.}, R1-Omni) can achieve comparable performance
through domain-specific post-training adaptation. By introducing MME-Emotion,
we hope that it can serve as a foundation for advancing MLLMs' emotional
intelligence in the future.
Ссылки и действия
Дополнительные ресурсы: