Who Sees What? Structured Thought-Action Sequences for Epistemic Reasoning in LLMs

2508.14564v1 cs.AI, cs.CL, cs.HC, I.2.9; I.2.10; I.2.7; J.4 2025-08-22
Авторы:

Luca Annese, Sabrina Patania, Silvia Serino, Tom Foulsham, Silvia Rossi, Azzurra Ruggeri, Dimitri Ognibene

Резюме на русском

## Контекст Последние достижения в области бо LARGE LANGUAGE MODELS (LLMs) и развития фреймворков для реализации рационального мышления дали существенный потенциал для улучшения моделей, которые могут выступать в роли компаньонов и специалистов в коллективных задачах. Однако, среди них возникают серьезные ограждения в понимании того, что другой агент может увидеть или знать. Такие проблемы возникают в связи с недостаточным раскрытием моделей для активного восприятия, участия в коллективной работе и понимания того, что другие знают (епистемический рассуждения). Наша исследовательская проблема заключается в исследовании, насколько удается улучшить эти способности с помощью структурированных примеров, полученных из графов решений, порождаемых планировщиком Fast Downward. Мы хотим протестировать, могут ли эти примеры улучшить точность и эффективность в решении задач, требующих активного восприятия и эпистемической работы в целом. ## Метод Мы разработали специальный подход, который использует графы решений, порождаемые планировщиком Fast Downward, для создания множества структурированных примеров. Эти примеры разделяются на три категории: 1) Оптимальные пути для достижения целей (G-type); 2) Информативные пути, содержащие решения в задачах (E-type); 3) Детальные пошаговые сравнения действий и их альтернатив (L-type). Затем, на основе этих примеров, мы создаем "мысленно-действительные" примеры, где требуется изложение логики каждого решения. Эти примеры используются для обучения агентов, работающих в рамках ReAct-фреймворка. Мы проверяем, насколько эффективны эти примеры в улучшении возможностей агентов по разделению внимания и пониманию того, что другой агент может видеть и узнать. ## Результаты Мы провели эксперименты, в которых LLMs-агенты проходили задачи, требующие активного восприятия и эпистемических рассуждений. Мы сравнивали результаты, полученные с использованием разных видов структурированных примеров. Оказалось, что на задачи, требующие базового фильтра внимания, агенты проявили достаточную эффективность. Однако, когда задачи требуют рассуждений о видимости, скрытых пространствах и стоимости эпистемических действий, агенты начали проявлять существенные недостатки. Например, они не всегда могут справиться с конкретным восприятием пространства и подбирать наиболее эффективные альтернативы действий. ## Значимость Наши результаты показывают, что, несмотря на улучшения в некоторых аспектах, структурированные примеры оказываются недостаточными для достижения значительных улучшений в эпистемических моделях. Например

Abstract

Recent advances in large language models (LLMs) and reasoning frameworks have opened new possibilities for improving the perspective -taking capabilities of autonomous agents. However, tasks that involve active perception, collaborative reasoning, and perspective taking (understanding what another agent can see or knows) pose persistent challenges for current LLM-based systems. This study investigates the potential of structured examples derived from transformed solution graphs generated by the Fast Downward planner to improve the performance of LLM-based agents within a ReAct framework. We propose a structured solution-processing pipeline that generates three distinct categories of examples: optimal goal paths (G-type), informative node paths (E-type), and step-by-step optimal decision sequences contrasting alternative actions (L-type). These solutions are further converted into ``thought-action'' examples by prompting an LLM to explicitly articulate the reasoning behind each decision. While L-type examples slightly reduce clarification requests and overall action steps, they do not yield consistent improvements. Agents are successful in tasks requiring basic attentional filtering but struggle in scenarios that required mentalising about occluded spaces or weighing the costs of epistemic actions. These findings suggest that structured examples alone are insufficient for robust perspective-taking, underscoring the need for explicit belief tracking, cost modelling, and richer environments to enable socially grounded collaboration in LLM-based agents.

Ссылки и действия