Growing Perspectives: Modelling Embodied Perspective Taking and Inner Narrative Development Using Large Language Models
2509.11868v1
cs.CL, cs.AI, cs.HC, cs.RO, I.2; I.2.7; I.2.10; J.4
2025-09-17
Авторы:
Sabrina Patania, Luca Annese, Anna Lambiase, Anita Pellegrini, Tom Foulsham, Azzurra Ruggeri, Silvia Rossi, Silvia Serino, Dimitri Ognibene
Резюме на русском
## Контекст
Современная компьютерная наука стремится моделировать человеческие способности, включая области, где взаимодействие и социальная интеллектуальная сфера играют ключевую роль. Общение и достижение сингрейднинга требуют не только языковых навыков, но и возможности воспринимать мир с различных личных и субъективных точек зрения. Однако существующие модели часто игнорируют этот аспект, ограничиваясь лишь синтезом текста. Единичные подходы, которые сочетают языковые модели с моделями представления перспектив, либо ограничиваются формальными определениями, либо не учитывают эволюцию представлений в развитии. Это исследование фокусируется на устранении этой проблемы, построив модель, которая моделирует обучение и развитие перспективного восприятия, а также взаимодействие в реальном мире.
## Метод
Для моделирования развития перспективного восприятия использована система PerspAct, которая интегрирует парадигму ReAct (Reason and Act) с большими языковыми моделями (LLMs). Развитие перспективного восприятия определяется в соответствии с теорией группового развития Selman. Для оценки модели использовались расширенные задачи "директор-исполнитель", где цель состоит в том, чтобы генерировать внутренние представления, соответствующие различным стадиям развития. Данные для экспериментов состояли из текстовых последовательностей, созданных моделью, которые были оценены как на качество генерированных внутренних представлений (качественно), так и на эффективность выполнения задач (качественно и количественно).
## Результаты
Выполненные эксперименты показали, что модель GPT успешно генерирует внутренние представления, соответствующие различным стадиям развития, перед запуском задачи. Однако в процессе взаимодействия модель часто переходит на более развитые стадии, что указывает на роль языкового обмена в уточнении внутренних представлений. Более высокие стадии развития более эффективно влияют на работу в команде, в то время как более ранние стадии приводят к более разнообразным результатам в сложных ситуациях. Эти результаты подтверждают потенциал интеграции моделей перспективного восприятия и языка в моделировании развития и совместных задач.
## Значимость
Полученные результаты могут быть применены в области развития роботов-коллег, обучения личности, улучшении интеллектуальных взаимодействий. Модель PerspAct предлагает способ для более точного моделирования развития человеческих качеств, таких как развитие перспективного восприятия и развитие внутреннего речевого моделирования. Это может
Abstract
Language and embodied perspective taking are essential for human
collaboration, yet few computational models address both simultaneously. This
work investigates the PerspAct system [1], which integrates the ReAct (Reason
and Act) paradigm with Large Language Models (LLMs) to simulate developmental
stages of perspective taking, grounded in Selman's theory [2]. Using an
extended director task, we evaluate GPT's ability to generate internal
narratives aligned with specified developmental stages, and assess how these
influence collaborative performance both qualitatively (action selection) and
quantitatively (task efficiency). Results show that GPT reliably produces
developmentally-consistent narratives before task execution but often shifts
towards more advanced stages during interaction, suggesting that language
exchanges help refine internal representations. Higher developmental stages
generally enhance collaborative effectiveness, while earlier stages yield more
variable outcomes in complex contexts. These findings highlight the potential
of integrating embodied perspective taking and language in LLMs to better model
developmental dynamics and stress the importance of evaluating internal speech
during combined linguistic and embodied tasks.