Human Semantic Representations of Social Interactions from Moving Shapes

2509.20673v1 cs.CV, cs.CE, cs.CL 2025-09-27

Авторы:

Yiling Yun, Hongjing Lu

Резюме на русском

## Контекст Социальные взаимодействия являются одним из основных аспектов человеческого общения, и их удобно распознавать, даже при простых визуальных признаках. Несмотря на то, что ранее много эмпирических исследований сосредоточилось на визуальных признаках, менее тщательно исследовано, какие семантические представления человек использует для дополнения визуальных признаков. Наше исследование опрашивает и измеряет способность человеческого мозга распознавать социальные взаимодействия на основании простых движущихся фигур. Это может способствовать лучшему пониманию того, как мы воспринимаем социальную реальность, а также улучшить модели искусственного зрения. ## Метод Мы провели две экспериментальные серии. В **Study 1** участники просматривали анимации, состоящие из двигающихся фигур, и помечали их, опираясь на свои впечатления. Эти пометки были позже сгруппированы и анализированы. В **Study 2** использовались 27 типов социальных взаимодействий, которые были оценены с помощью жюри через симметрию в степени сходства. Мы сравнили результаты с моделями, работающими на основе визуальных признаков, лейблов и семантических эмбеддингов, полученных из описаний анимаций. Эмбеддинги были сформированы с использованием различных моделей, таких как GloVe и Word2Vec. ## Результаты В **Study 1** наблюдались различные варианты оценки пользователей, что подтвердило сложность ручных анализов. В **Study 2** семантические модели показали лучшую точность по сравнению с моделями на основе лейблов и визуальных признаков. Особенно эффективны были модели на основе глаголов из описаний анимаций. Эти результаты указывают на важность семантической структуры социальных взаимодействий в понимании человеческих впечатлений. ## Значимость Наша работа имеет практическое значение в области зрения компьютеров и обучения машин. Мы демонстрируем, что семантические модели могут расширять визуальные модели, улучшая понимание социальных взаимодействий. Это может быть применено в разработке интеллектуальных систем, например, в системах, которые распознают социальные ситуации для социального помощника или для видеоанализа в социальных сетях. Мы также открываем пути для будущих исследований в области искусственного зрения, компьютерного зрения и квантовой интеллектуальной системы. ## Выводы Наши исследования показали, что человеческая семантическая представление социальных взаимодействий заключается не только в визуальных признаках, но и в семантической структуре отношений. Эти результаты могут помочь создать более точные модели в различных областях, таких как искусст

Abstract

Humans are social creatures who readily recognize various social interactions from simple display of moving shapes. While previous research has often focused on visual features, we examine what semantic representations that humans employ to complement visual features. In Study 1, we directly asked human participants to label the animations based on their impression of moving shapes. We found that human responses were distributed. In Study 2, we measured the representational geometry of 27 social interactions through human similarity judgments and compared it with model predictions based on visual features, labels, and semantic embeddings from animation descriptions. We found that semantic models provided complementary information to visual features in explaining human judgments. Among the semantic models, verb-based embeddings extracted from descriptions account for human similarity judgments the best. These results suggest that social perception in simple displays reflects the semantic structure of social interactions, bridging visual and abstract representations.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Резюме на русском

Abstract

Ссылки и действия

Навигация