Beyond Words: Enhancing Desire, Emotion, and Sentiment Recognition with Non-Verbal Cues

2509.15540v1 cs.CV, cs.CL 2025-09-23
Авторы:

Wei Chen, Tongguan Wang, Feiyue Xue, Junkai Li, Hui Liu, Ying Sha

Резюме на русском

## Контекст Дизайн новых технологий, ориентированных на понимание человеческих эмоций, желаний и сентиментов, является важной задачей для создания удобных и эффективных систем интеракции. Несмотря на значительные успехи в области мультимодального обучения, понимание человеческого желания в контексте эмоций и сентиментов остается недостаточно исследованой областью. Дополнительно, существующие методы анализа сентимента часто ориентируются на текстуальные данные и недостаточно используют изображения как важные невербальные подсказки. Это приводит к несостоятельной интерпретации желаний и чувств. Мы предлагаем метод, который адресует эти проблемы, используя симметричную бибидоренциальную мультимодальную модель для понимания желаний, эмоций и сентиментов. ## Метод Мы предлагаем Symmetrical Bidirectional Multimodal Learning Framework (SyDES), который вводит симметричный подход для объединения текста и изображений. Метод использует низкорезольвентные изображения для получения глобальных визуальных представлений, которые используются для выравнивания кросс-модального анализа. Для улучшения понимания тонкой гранулярности изображений используется маскированная модель обработки изображений, разделяющая изображения на подчасти и обрабатывающая их по отдельности. Для углубленного кросс-модального взаимодействия между текстом и изображением мы вводим декодеры, которые работают в обоих направлениях: текст-гидрированный изображения и изображение-гидрированный текст. Для эффективного использования ресурсов мы вводим также стратегию смешанных масштабов, где изображения разбиваются на подчасти для обучения на низких резольюциях. ## Результаты Мы проводим эксперименты на датасете MSED, который включает данные для понимания желаний, анализа эмоций и сентимента. Наши результаты показывают улучшение показателей F1-score: на 1.1% для понимания желаний, 0.6% для эмоционального анализа, и 0.9% для сентиментального анализа. Этот результат обосновывает эффективность нашего подхода в сравнении со стандартными методами. Мы также проведем детальный анализ того, как мультимодальные представления снижают ошибки в предсказаниях, особенно в случае недостаточного текстового контекста. ## Значимость Метод SyDES может применяться в различных областях, включая социальные сети, мобильные приложения для анализа эмоций и сентиментов, а также консультационные системы. Он предлагает значительные преимущества по сравнению с другими подходами, в том числе высокую точность в распознавании чувств и желаний, а также улучшение возможностей для невербального анализа. Мы считаем, что наш метод может стать основой для развития новы

Abstract

Desire, as an intention that drives human behavior, is closely related to both emotion and sentiment. Multimodal learning has advanced sentiment and emotion recognition, but multimodal approaches specially targeting human desire understanding remain underexplored. And existing methods in sentiment analysis predominantly emphasize verbal cues and overlook images as complementary non-verbal cues. To address these gaps, we propose a Symmetrical Bidirectional Multimodal Learning Framework for Desire, Emotion, and Sentiment Recognition, which enforces mutual guidance between text and image modalities to effectively capture intention-related representations in the image. Specifically, low-resolution images are used to obtain global visual representations for cross-modal alignment, while high resolution images are partitioned into sub-images and modeled with masked image modeling to enhance the ability to capture fine-grained local features. A text-guided image decoder and an image-guided text decoder are introduced to facilitate deep cross-modal interaction at both local and global representations of image information. Additionally, to balance perceptual gains with computation cost, a mixed-scale image strategy is adopted, where high-resolution images are cropped into sub-images for masked modeling. The proposed approach is evaluated on MSED, a multimodal dataset that includes a desire understanding benchmark, as well as emotion and sentiment recognition. Experimental results indicate consistent improvements over other state-of-the-art methods, validating the effectiveness of our proposed method. Specifically, our method outperforms existing approaches, achieving F1-score improvements of 1.1% in desire understanding, 0.6% in emotion recognition, and 0.9% in sentiment analysis. Our code is available at: https://github.com/especiallyW/SyDES.

Ссылки и действия