Growing Perspectives: Modelling Embodied Perspective Taking and Inner Narrative Development Using Large Language Models

2509.11868v1 cs.CL, cs.AI, cs.HC, cs.RO, I.2; I.2.7; I.2.10; J.4 2025-09-17
Авторы:

Sabrina Patania, Luca Annese, Anna Lambiase, Anita Pellegrini, Tom Foulsham, Azzurra Ruggeri, Silvia Rossi, Silvia Serino, Dimitri Ognibene

Резюме на русском

## Контекст Современная компьютерная наука стремится моделировать человеческие способности, включая области, где взаимодействие и социальная интеллектуальная сфера играют ключевую роль. Общение и достижение сингрейднинга требуют не только языковых навыков, но и возможности воспринимать мир с различных личных и субъективных точек зрения. Однако существующие модели часто игнорируют этот аспект, ограничиваясь лишь синтезом текста. Единичные подходы, которые сочетают языковые модели с моделями представления перспектив, либо ограничиваются формальными определениями, либо не учитывают эволюцию представлений в развитии. Это исследование фокусируется на устранении этой проблемы, построив модель, которая моделирует обучение и развитие перспективного восприятия, а также взаимодействие в реальном мире. ## Метод Для моделирования развития перспективного восприятия использована система PerspAct, которая интегрирует парадигму ReAct (Reason and Act) с большими языковыми моделями (LLMs). Развитие перспективного восприятия определяется в соответствии с теорией группового развития Selman. Для оценки модели использовались расширенные задачи "директор-исполнитель", где цель состоит в том, чтобы генерировать внутренние представления, соответствующие различным стадиям развития. Данные для экспериментов состояли из текстовых последовательностей, созданных моделью, которые были оценены как на качество генерированных внутренних представлений (качественно), так и на эффективность выполнения задач (качественно и количественно). ## Результаты Выполненные эксперименты показали, что модель GPT успешно генерирует внутренние представления, соответствующие различным стадиям развития, перед запуском задачи. Однако в процессе взаимодействия модель часто переходит на более развитые стадии, что указывает на роль языкового обмена в уточнении внутренних представлений. Более высокие стадии развития более эффективно влияют на работу в команде, в то время как более ранние стадии приводят к более разнообразным результатам в сложных ситуациях. Эти результаты подтверждают потенциал интеграции моделей перспективного восприятия и языка в моделировании развития и совместных задач. ## Значимость Полученные результаты могут быть применены в области развития роботов-коллег, обучения личности, улучшении интеллектуальных взаимодействий. Модель PerspAct предлагает способ для более точного моделирования развития человеческих качеств, таких как развитие перспективного восприятия и развитие внутреннего речевого моделирования. Это может

Abstract

Language and embodied perspective taking are essential for human collaboration, yet few computational models address both simultaneously. This work investigates the PerspAct system [1], which integrates the ReAct (Reason and Act) paradigm with Large Language Models (LLMs) to simulate developmental stages of perspective taking, grounded in Selman's theory [2]. Using an extended director task, we evaluate GPT's ability to generate internal narratives aligned with specified developmental stages, and assess how these influence collaborative performance both qualitatively (action selection) and quantitatively (task efficiency). Results show that GPT reliably produces developmentally-consistent narratives before task execution but often shifts towards more advanced stages during interaction, suggesting that language exchanges help refine internal representations. Higher developmental stages generally enhance collaborative effectiveness, while earlier stages yield more variable outcomes in complex contexts. These findings highlight the potential of integrating embodied perspective taking and language in LLMs to better model developmental dynamics and stress the importance of evaluating internal speech during combined linguistic and embodied tasks.

Ссылки и действия