Human Semantic Representations of Social Interactions from Moving Shapes
2509.20673v1
cs.CV, cs.CE, cs.CL
2025-09-27
Авторы:
Yiling Yun, Hongjing Lu
Резюме на русском
## Контекст
Социальные взаимодействия являются одним из основных аспектов человеческого общения, и их удобно распознавать, даже при простых визуальных признаках. Несмотря на то, что ранее много эмпирических исследований сосредоточилось на визуальных признаках, менее тщательно исследовано, какие семантические представления человек использует для дополнения визуальных признаков. Наше исследование опрашивает и измеряет способность человеческого мозга распознавать социальные взаимодействия на основании простых движущихся фигур. Это может способствовать лучшему пониманию того, как мы воспринимаем социальную реальность, а также улучшить модели искусственного зрения.
## Метод
Мы провели две экспериментальные серии. В **Study 1** участники просматривали анимации, состоящие из двигающихся фигур, и помечали их, опираясь на свои впечатления. Эти пометки были позже сгруппированы и анализированы. В **Study 2** использовались 27 типов социальных взаимодействий, которые были оценены с помощью жюри через симметрию в степени сходства. Мы сравнили результаты с моделями, работающими на основе визуальных признаков, лейблов и семантических эмбеддингов, полученных из описаний анимаций. Эмбеддинги были сформированы с использованием различных моделей, таких как GloVe и Word2Vec.
## Результаты
В **Study 1** наблюдались различные варианты оценки пользователей, что подтвердило сложность ручных анализов. В **Study 2** семантические модели показали лучшую точность по сравнению с моделями на основе лейблов и визуальных признаков. Особенно эффективны были модели на основе глаголов из описаний анимаций. Эти результаты указывают на важность семантической структуры социальных взаимодействий в понимании человеческих впечатлений.
## Значимость
Наша работа имеет практическое значение в области зрения компьютеров и обучения машин. Мы демонстрируем, что семантические модели могут расширять визуальные модели, улучшая понимание социальных взаимодействий. Это может быть применено в разработке интеллектуальных систем, например, в системах, которые распознают социальные ситуации для социального помощника или для видеоанализа в социальных сетях. Мы также открываем пути для будущих исследований в области искусственного зрения, компьютерного зрения и квантовой интеллектуальной системы.
## Выводы
Наши исследования показали, что человеческая семантическая представление социальных взаимодействий заключается не только в визуальных признаках, но и в семантической структуре отношений. Эти результаты могут помочь создать более точные модели в различных областях, таких как искусст
Abstract
Humans are social creatures who readily recognize various social interactions
from simple display of moving shapes. While previous research has often focused
on visual features, we examine what semantic representations that humans employ
to complement visual features. In Study 1, we directly asked human participants
to label the animations based on their impression of moving shapes. We found
that human responses were distributed. In Study 2, we measured the
representational geometry of 27 social interactions through human similarity
judgments and compared it with model predictions based on visual features,
labels, and semantic embeddings from animation descriptions. We found that
semantic models provided complementary information to visual features in
explaining human judgments. Among the semantic models, verb-based embeddings
extracted from descriptions account for human similarity judgments the best.
These results suggest that social perception in simple displays reflects the
semantic structure of social interactions, bridging visual and abstract
representations.
Ссылки и действия
Дополнительные ресурсы: