Multimodal Large Language Models for End-to-End Affective Computing: Benchmarking and Boosting with Generative Knowledge Prompting
2508.02429v1
cs.AI, cs.LG
2025-08-09
Авторы:
Miaosen Luo, Jiesen Long, Zequn Li, Yunying Yang, Yuncheng Jiang, Sijie Mai
Резюме на русском
**Резюме**
В статье представлено изучение multimodal large language models (MLLMs) для задач multimodal affective computing (MAC). Эти модели объединяют различные модальности (текст, видео, аудио) в единой структуре для распознавания и интерпретации человеческих эмоций. Однако существуют проблемы: непостоянство результатов в зависимости от типа задачи и неоднозначность влияния архитектурных решений и характеристик данных на качество анализа эмоций. Авторы провели систематическую оценку современных MLLMs на различных MAC-данных, показали, как модели отличаются в плане качества и подвергли анализу условий, при которых это происходит. Также предложена новая стратегия, комбинирующая generative knowledge prompting с supervised fine-tuning. Эксперименты показали, что такой подход значительно повышает эффективность моделей в решении MAC-задач, делая его простой и эффективной для последующих исследований в этой области.
Abstract
Multimodal Affective Computing (MAC) aims to recognize and interpret human
emotions by integrating information from diverse modalities such as text,
video, and audio. Recent advancements in Multimodal Large Language Models
(MLLMs) have significantly reshaped the landscape of MAC by offering a unified
framework for processing and aligning cross-modal information. However,
practical challenges remain, including performance variability across complex
MAC tasks and insufficient understanding of how architectural designs and data
characteristics impact affective analysis. To address these gaps, we conduct a
systematic benchmark evaluation of state-of-the-art open-source MLLMs capable
of concurrently processing audio, visual, and textual modalities across
multiple established MAC datasets. Our evaluation not only compares the
performance of these MLLMs but also provides actionable insights into model
optimization by analyzing the influence of model architectures and dataset
properties. Furthermore, we propose a novel hybrid strategy that combines
generative knowledge prompting with supervised fine-tuning to enhance MLLMs'
affective computing capabilities. Experimental results demonstrate that this
integrated approach significantly improves performance across various MAC
tasks, offering a promising avenue for future research and development in this
field. Our code is released on https://github.com/LuoMSen/MLLM-MAC.
Ссылки и действия
Дополнительные ресурсы: