Beyond Words: Enhancing Desire, Emotion, and Sentiment Recognition with Non-Verbal Cues
2509.15540v1
cs.CV, cs.CL
2025-09-23
Авторы:
Wei Chen, Tongguan Wang, Feiyue Xue, Junkai Li, Hui Liu, Ying Sha
Резюме на русском
## Контекст
Дизайн новых технологий, ориентированных на понимание человеческих эмоций, желаний и сентиментов, является важной задачей для создания удобных и эффективных систем интеракции. Несмотря на значительные успехи в области мультимодального обучения, понимание человеческого желания в контексте эмоций и сентиментов остается недостаточно исследованой областью. Дополнительно, существующие методы анализа сентимента часто ориентируются на текстуальные данные и недостаточно используют изображения как важные невербальные подсказки. Это приводит к несостоятельной интерпретации желаний и чувств. Мы предлагаем метод, который адресует эти проблемы, используя симметричную бибидоренциальную мультимодальную модель для понимания желаний, эмоций и сентиментов.
## Метод
Мы предлагаем Symmetrical Bidirectional Multimodal Learning Framework (SyDES), который вводит симметричный подход для объединения текста и изображений. Метод использует низкорезольвентные изображения для получения глобальных визуальных представлений, которые используются для выравнивания кросс-модального анализа. Для улучшения понимания тонкой гранулярности изображений используется маскированная модель обработки изображений, разделяющая изображения на подчасти и обрабатывающая их по отдельности. Для углубленного кросс-модального взаимодействия между текстом и изображением мы вводим декодеры, которые работают в обоих направлениях: текст-гидрированный изображения и изображение-гидрированный текст. Для эффективного использования ресурсов мы вводим также стратегию смешанных масштабов, где изображения разбиваются на подчасти для обучения на низких резольюциях.
## Результаты
Мы проводим эксперименты на датасете MSED, который включает данные для понимания желаний, анализа эмоций и сентимента. Наши результаты показывают улучшение показателей F1-score: на 1.1% для понимания желаний, 0.6% для эмоционального анализа, и 0.9% для сентиментального анализа. Этот результат обосновывает эффективность нашего подхода в сравнении со стандартными методами. Мы также проведем детальный анализ того, как мультимодальные представления снижают ошибки в предсказаниях, особенно в случае недостаточного текстового контекста.
## Значимость
Метод SyDES может применяться в различных областях, включая социальные сети, мобильные приложения для анализа эмоций и сентиментов, а также консультационные системы. Он предлагает значительные преимущества по сравнению с другими подходами, в том числе высокую точность в распознавании чувств и желаний, а также улучшение возможностей для невербального анализа. Мы считаем, что наш метод может стать основой для развития новы
Abstract
Desire, as an intention that drives human behavior, is closely related to
both emotion and sentiment. Multimodal learning has advanced sentiment and
emotion recognition, but multimodal approaches specially targeting human desire
understanding remain underexplored. And existing methods in sentiment analysis
predominantly emphasize verbal cues and overlook images as complementary
non-verbal cues. To address these gaps, we propose a Symmetrical Bidirectional
Multimodal Learning Framework for Desire, Emotion, and Sentiment Recognition,
which enforces mutual guidance between text and image modalities to effectively
capture intention-related representations in the image. Specifically,
low-resolution images are used to obtain global visual representations for
cross-modal alignment, while high resolution images are partitioned into
sub-images and modeled with masked image modeling to enhance the ability to
capture fine-grained local features. A text-guided image decoder and an
image-guided text decoder are introduced to facilitate deep cross-modal
interaction at both local and global representations of image information.
Additionally, to balance perceptual gains with computation cost, a mixed-scale
image strategy is adopted, where high-resolution images are cropped into
sub-images for masked modeling. The proposed approach is evaluated on MSED, a
multimodal dataset that includes a desire understanding benchmark, as well as
emotion and sentiment recognition. Experimental results indicate consistent
improvements over other state-of-the-art methods, validating the effectiveness
of our proposed method. Specifically, our method outperforms existing
approaches, achieving F1-score improvements of 1.1% in desire understanding,
0.6% in emotion recognition, and 0.9% in sentiment analysis. Our code is
available at: https://github.com/especiallyW/SyDES.
Ссылки и действия
Дополнительные ресурсы: