A Multimodal Neural Network for Recognizing Subjective Self-Disclosure Towards Social Robots

2508.10828v1 cs.RO, cs.AI 2025-08-16
Авторы:

Henry Powell, Guy Laban, Emily S. Cross

Резюме на русском

## Контекст Самораскрытие является одной из ключевых особенностей человеческих социальных взаимоотношений. Оно помогает устанавливать доверительные отношения, улучшать коммуникацию и способствует пониманию друг друга. Несмотря на то, что изучение этой феномена было подробно рассмотрено в социальных и психологических исследованиях, в области развития компьютерных моделей, моделирующих это поведение, значительных успехов до сих пор не было. Это трудность усиливается при рассмотрении социальных роботов, которые должны выступать в качестве партнеров в социальных интеракциях. Исследование способности роботов опознавать самораскрытие человека становится ключевым для создания интеллектуальных социальных роботов, способных участвовать в естественных взаимоотношениях. Мы предлагаем многоканальную нейронную сеть с автоопределяемыми моделями внимания, тренированную на большой коллекции видеоматериалов, а также разработали новую функцию ошибки, позволяющую улучшить точность классификации и регрессии в этой задаче. ## Метод Мы разработали многомодальную нейронную сеть, которая использует модели внимания для определения самораскрытия. Для обучения сети мы собрали большую коллекцию видеоматериалов, позволяющих учитывать множество моментов и контекстов самораскрытия. Мы также разработали новую функцию ошибки, Scale Preserving Cross Entropy Loss, которая сочетает в себе преимущества классификации и регрессии. Эта функция позволяет сети лучше учитывать тонкости в градации ответов, что улучшает общую точность. Мы проводили эксперименты с разными модификациями сети и сравнивали результаты с базовыми моделями, использующими стандартные подходы к этой задаче. ## Результаты Наши эксперименты показали, что сеть, обученная нашим новым подходом, достигла F1-меры 0.83, что значительно превосходит лучшие результаты базовых моделей. Например, F1-мера модели, обученной стандартным подходом, составляла 0.35. Мы также показали, что применение Scale Preserving Cross Entropy Loss улучшило обработку не только классических классов (положительные и негативные ответы), но и диапазона значений в регрессионной задаче. Это демонстрирует, что наш подход эффективен в обработке данных, относящихся к самораскрытию, и может быть применен в различных моделях социальных роботов. ## Значимость Разработанный подход может быть применен для создания социальных роботов, которые способны тонко понимать и реагировать на самораскрытие человека. Это важно для использования роботов в таких областях, как уход за пожилыми людьми, обучение и сопровождение. Наш подход может также быть использован для других задач, требую

Abstract

Subjective self-disclosure is an important feature of human social interaction. While much has been done in the social and behavioural literature to characterise the features and consequences of subjective self-disclosure, little work has been done thus far to develop computational systems that are able to accurately model it. Even less work has been done that attempts to model specifically how human interactants self-disclose with robotic partners. It is becoming more pressing as we require social robots to work in conjunction with and establish relationships with humans in various social settings. In this paper, our aim is to develop a custom multimodal attention network based on models from the emotion recognition literature, training this model on a large self-collected self-disclosure video corpus, and constructing a new loss function, the scale preserving cross entropy loss, that improves upon both classification and regression versions of this problem. Our results show that the best performing model, trained with our novel loss function, achieves an F1 score of 0.83, an improvement of 0.48 from the best baseline model. This result makes significant headway in the aim of allowing social robots to pick up on an interaction partner's self-disclosures, an ability that will be essential in social robots with social cognition.

Ссылки и действия