Who Sees What? Structured Thought-Action Sequences for Epistemic Reasoning in LLMs
2508.14564v1
cs.AI, cs.CL, cs.HC, I.2.9; I.2.10; I.2.7; J.4
2025-08-22
Авторы:
Luca Annese, Sabrina Patania, Silvia Serino, Tom Foulsham, Silvia Rossi, Azzurra Ruggeri, Dimitri Ognibene
Резюме на русском
## Контекст
Последние достижения в области бо LARGE LANGUAGE MODELS (LLMs) и развития фреймворков для реализации рационального мышления дали существенный потенциал для улучшения моделей, которые могут выступать в роли компаньонов и специалистов в коллективных задачах. Однако, среди них возникают серьезные ограждения в понимании того, что другой агент может увидеть или знать. Такие проблемы возникают в связи с недостаточным раскрытием моделей для активного восприятия, участия в коллективной работе и понимания того, что другие знают (епистемический рассуждения). Наша исследовательская проблема заключается в исследовании, насколько удается улучшить эти способности с помощью структурированных примеров, полученных из графов решений, порождаемых планировщиком Fast Downward. Мы хотим протестировать, могут ли эти примеры улучшить точность и эффективность в решении задач, требующих активного восприятия и эпистемической работы в целом.
## Метод
Мы разработали специальный подход, который использует графы решений, порождаемые планировщиком Fast Downward, для создания множества структурированных примеров. Эти примеры разделяются на три категории: 1) Оптимальные пути для достижения целей (G-type); 2) Информативные пути, содержащие решения в задачах (E-type); 3) Детальные пошаговые сравнения действий и их альтернатив (L-type). Затем, на основе этих примеров, мы создаем "мысленно-действительные" примеры, где требуется изложение логики каждого решения. Эти примеры используются для обучения агентов, работающих в рамках ReAct-фреймворка. Мы проверяем, насколько эффективны эти примеры в улучшении возможностей агентов по разделению внимания и пониманию того, что другой агент может видеть и узнать.
## Результаты
Мы провели эксперименты, в которых LLMs-агенты проходили задачи, требующие активного восприятия и эпистемических рассуждений. Мы сравнивали результаты, полученные с использованием разных видов структурированных примеров. Оказалось, что на задачи, требующие базового фильтра внимания, агенты проявили достаточную эффективность. Однако, когда задачи требуют рассуждений о видимости, скрытых пространствах и стоимости эпистемических действий, агенты начали проявлять существенные недостатки. Например, они не всегда могут справиться с конкретным восприятием пространства и подбирать наиболее эффективные альтернативы действий.
## Значимость
Наши результаты показывают, что, несмотря на улучшения в некоторых аспектах, структурированные примеры оказываются недостаточными для достижения значительных улучшений в эпистемических моделях. Например
Abstract
Recent advances in large language models (LLMs) and reasoning frameworks have
opened new possibilities for improving the perspective -taking capabilities of
autonomous agents. However, tasks that involve active perception, collaborative
reasoning, and perspective taking (understanding what another agent can see or
knows) pose persistent challenges for current LLM-based systems. This study
investigates the potential of structured examples derived from transformed
solution graphs generated by the Fast Downward planner to improve the
performance of LLM-based agents within a ReAct framework. We propose a
structured solution-processing pipeline that generates three distinct
categories of examples: optimal goal paths (G-type), informative node paths
(E-type), and step-by-step optimal decision sequences contrasting alternative
actions (L-type). These solutions are further converted into ``thought-action''
examples by prompting an LLM to explicitly articulate the reasoning behind each
decision. While L-type examples slightly reduce clarification requests and
overall action steps, they do not yield consistent improvements. Agents are
successful in tasks requiring basic attentional filtering but struggle in
scenarios that required mentalising about occluded spaces or weighing the costs
of epistemic actions. These findings suggest that structured examples alone are
insufficient for robust perspective-taking, underscoring the need for explicit
belief tracking, cost modelling, and richer environments to enable socially
grounded collaboration in LLM-based agents.