The Yokai Learning Environment: Tracking Beliefs Over Space and Time

2508.12480v1 cs.AI, cs.LG, cs.MA 2025-08-19
Авторы:

Constantin Ruhdorfer, Matteo Bortoletto, Andreas Bulling

Резюме на русском

## Контекст The Yokai Learning Environment (YLE) — это инновационная многоагентная среда на основе игры Yokai, которая расширяет теорию Теории Ума (ToM). ToM является ключевым компонентом развития коллаборативного Искусственного Интеллекта (AI), поскольку оно включает в себя моделирование и реагирование на убеждения других участников для обеспечения общего понимания. Однако существующие методы Теории Ума имеют ограничения — они ограничиваются ситуациями, в которых агенты просто наблюдают действия других, или не учитывают процессы установления и поддержания общей значимости в течение длительного времени. Объектом изучения в работе является развитие методов, позволяющих агентам эффективно устанавливать и поддерживать общее понимание в ходе динамических многоагентных ситуаций. ## Метод YLE — это кооперативная игра, в которой участники должны объединять карты в кластеры по цвету. Игра представляет собой окружение с многоагентным реинфорсментным обучением (Multi-Agent Reinforcement Learning, MARL), где агенты должны отслеживать эволюцию убеждений, запоминать предыдущие наблюдения и использовать подсказки как канал выражения целей. Одним из основных аспектов геймплея является то, что агенты должны следить за эволюцией скрытых ситуаций на доске и интерпретировать подсказки других игроков. Эта среда является вызовом для теории ТоМ, поскольку агенты должны совместно строить контекст в ходе развивающихся игр. Основные элементы методологии включают: агентские модели, ориентированные на моделирование убеждений, а также анализ их эффективности в условиях развивающихся и непредсказуемых условий. ## Результаты В ходе экспериментов были проанализированы поведения агентов в различных условиях. Несмотря на то, что агенты имели доступ к идеальной памяти, они столкнулись с трудностями в решении сложных задач в YLE. Было замечено, что моделирование убеждений увеличивало эффективность, но не решало проблемы поддержания взаимопонимания в ходе длительных игр. Агенты часто полагались на локальные конвенции вместо устойчивого моделирования убеждений. Эти результаты подтверждают, что существующие методы ТоМ не достаточно сильны для решения более сложных задач, которые требуют более высокого уровня общего понимания. ## Значимость YLE открывает новые возможности для исследований в области Теории Ума, в том числе моделирования убеждений, моделирования памяти и поддержки общего понимания в динамических многоагентных ситуациях. Он может быть применен в разработке новых методов для создания AI, способных эффективно командовать и кооператив

Abstract

Developing collaborative AI hinges on Theory of Mind (ToM) - the ability to reason about the beliefs of others to build and maintain common ground. Existing ToM benchmarks, however, are restricted to passive observer settings or lack an assessment of how agents establish and maintain common ground over time. To address these gaps, we introduce the Yokai Learning Environment (YLE) - a multi-agent reinforcement learning (RL) environment based on the cooperative card game Yokai. In the YLE, agents take turns peeking at hidden cards and moving them to form clusters based on colour. Success requires tracking evolving beliefs, remembering past observations, using hints as grounded communication, and maintaining common ground with teammates. Our evaluation yields two key findings: First, current RL agents struggle to solve the YLE, even when given access to perfect memory. Second, while belief modelling improves performance, agents are still unable to effectively generalise to unseen partners or form accurate beliefs over longer games, exposing a reliance on brittle conventions rather than robust belief tracking. We use the YLE to investigate research questions in belief modelling, memory, partner generalisation, and scaling to higher-order ToM.

Ссылки и действия