Anatomy of a Feeling: Narrating Embodied Emotions via Large Vision-Language Models

2509.19595v1 cs.CL, cs.CV 2025-09-26
Авторы:

Mohammad Saim, Phan Anh Duong, Cat Luong, Aniket Bhanderi, Tianyu Jiang

Резюме на русском

## Контекст Образаясь о психологии, тело человека служит важной площадкой для выражения эмоций. Обнаруживая и интерпретируя эти неявные сигналы, аналитики и исследователи могут лучше понять состояния человека. Однако существуют значительные проблемы в том, чтобы автоматически определить и анализировать эти телесные сигналы, особенно когда они затруднены, например, скрыты под маской. Данная статья адресована новым подходам в области анализа эмоций, используя глубокие визуально-языковые модели (LVLMs). Мотивация заключается в том, чтобы расширить понимание эмоций через телесные сигналы, даже когда их явления нетривиальны. ## Метод Предлагаемый фреймворк, ELENA (Embodied LVLM Emotion Narratives), использует новейшие визуально-языковые модели для генерации подробных текстовых описаний, в которых фокусируются на телесных сигналах, связанных с эмоциональными реакциями. Методология включает в себя использование аттенционных карт для визуализации внимания LVLMs на разных частях тела. Также, проведены эксперименты для оценки того, насколько эффективно модель распознает эмоции, даже когда лицо скрыто. Архитектура фреймворка включает морфологический анализ тела и контекстуальную интерпретацию эмоциональных отзывов. ## Результаты Используя набор данных со скрытыми лицами, фреймворк ELENA доказал свою эффективность, превысив базовые модели без тюнинга. Эксперименты показали, что модель адекватно распознает эмоциональные реакции, ориентируясь на другие части тела, нежели лицо. Однако, анализ внимания LVLMs показал существующую биаз в пользу лица, которая все же остается важной частью модели. Результаты атаксативно подтверждают то, что модель может хорошо понимать телесные сигналы, даже в условиях уменьшенной видимости лица. ## Значимость Предложенный подход может быть применен в различных областях, таких как психология, здравоохранение и робототехника. Он добавляет новый размер к анализу эмоций, объединяя внимание к телесным сигналам и глубоким языковым моделям. Преимущества включают улучшенную точность распознавания эмоций при подкреплении телесных сигналов, даже в сложных условиях. Долгосрочно, этот подход может способствовать развитию моделей, которые будут более воaсприимчивы к контексту и эмоциональному контенту. ## Выводы Работа ELENA является первым шагом в расширении моделей визуально-языковых моделей для анализа телесных эмоций. Она показала, что LVLMs могут быть эффективно использованы для распознавания эмоций, даже в условиях, г

Abstract

The embodiment of emotional reactions from body parts contains rich information about our affective experiences. We propose a framework that utilizes state-of-the-art large vision-language models (LVLMs) to generate Embodied LVLM Emotion Narratives (ELENA). These are well-defined, multi-layered text outputs, primarily comprising descriptions that focus on the salient body parts involved in emotional reactions. We also employ attention maps and observe that contemporary models exhibit a persistent bias towards the facial region. Despite this limitation, we observe that our employed framework can effectively recognize embodied emotions in face-masked images, outperforming baselines without any fine-tuning. ELENA opens a new trajectory for embodied emotion analysis across the modality of vision and enriches modeling in an affect-aware setting.

Ссылки и действия