Авторы:
Fan Zhang, Zebang Cheng, Chong Deng, Haoxuan Li, Zheng Lian, Qian Chen, Huadai Liu, Wen Wang, Yi-Fan Zhang, Renrui Zhang, Ziyu Guo, Zhihong Zhu, Hao Wu, Haixin Wang, Yefeng Zheng, Xiaojiang Peng, Xian Wu, Kun Wang, Xiangang Li, Jieping Ye, Pheng-Ann Heng
## Контекст
В последние годы значительные усилия в области искусственного интеллекта уделялись развитию мультимодальных боLARGE LANGUAGE MODELS (MLLMs), которые включают в себя различные модальности информации, такие как текст, изображения и аудио. Одним из ключевых аспектов этих моделей является их эмоциональная интеллектуальность (emotional intelligence, EI), которая включает в себя возможности распознавания и синтеза эмоций, а также вывод эмоциональных состояний на основе логического рассуждения. Несмотря на прогресс в методологиях, существует значительные ограничения в существующих эмоциональных бенчмарках. Они не полностью отражают способность MLLMs общаться в различных сценариях и выявлять основные факторы, вызывающие эмоциональные состояния. Было запрошено разработать более полный бенчмарк, который мог бы оценивать способности MLLMs к эмоциональному рассуждению в различных условиях.
## Метод
Многомодальный бенчмарк **MME-Emotion** был разработан для оценки способностей MLLMs к эмоциональному пониманию и рассуждению. Он представляет собой систематический подход к эмоциональной интеллектуальности, предлагая **скалярную возможность**, **разнообразные условия** и **объединенные протоколы**. Он включает **6000+ видеоклипов** с задачами вопроса-ответа (QA), специально созданными для целей оценки, покрывающих широкий спектр ситуаций. Данные были специально подготовлены для формирования **восьми эмоциональных задач**, включая распознавание эмоций, вывод эмоциональных состояний, и т.д. Бенчмарк также включает в себя **гибридные метрики** для оценки эмоционального распознавания и рассуждения, анализируемых через **многоагентную систему**.
## Результаты
Результаты экспериментов были получены с использованием 20 различных MLLMs. Модели были оценены на своих способностях к распознаванию эмоций и выводу эмоциональных состояний в разных сценариях. Общая производительность MLLMs оказалась достаточно низкой, с топ-моделью достигающей **39.3%** в эмоциональном распознавании и **56.0%** в Chain-of-Thought (CoT) рассуждении. Это указывает на существующие ограничения в их эмоциональной интеллектуальности. Были выявлены различия между **обобщенными** и **специализированными** моделями: **обобщенные модели** (например, Gemini-2.5-Pro) показали достаточно высокую производительность за счет общей мультимодальной подготовки, в то время как **специализированные модели** (например, R1-Omni) достигли похожих результатов с помощью дополнительной адаптации к конкретным задачам.
## Значимость
Бенчмарк **M
Annotation:
Recent advances in multimodal large language models (MLLMs) have catalyzed
transformative progress in affective computing, enabling models to exhibit
emergent emotional intelligence. Despite substantial methodological progress,
current emotional benchmarks remain limited, as it is still unknown: (a) the
generalization abilities of MLLMs across distinct scenarios, and (b) their
reasoning capabilities to identify the triggering factors behind emotional
states. To bridge these gaps, we present \tex...
ID: 2508.09210v1
cs.CV, cs.AI