The Yokai Learning Environment: Tracking Beliefs Over Space and Time
2508.12480v1
cs.AI, cs.LG, cs.MA
2025-08-19
Авторы:
Constantin Ruhdorfer, Matteo Bortoletto, Andreas Bulling
Резюме на русском
## Контекст
The Yokai Learning Environment (YLE) — это инновационная многоагентная среда на основе игры Yokai, которая расширяет теорию Теории Ума (ToM). ToM является ключевым компонентом развития коллаборативного Искусственного Интеллекта (AI), поскольку оно включает в себя моделирование и реагирование на убеждения других участников для обеспечения общего понимания. Однако существующие методы Теории Ума имеют ограничения — они ограничиваются ситуациями, в которых агенты просто наблюдают действия других, или не учитывают процессы установления и поддержания общей значимости в течение длительного времени. Объектом изучения в работе является развитие методов, позволяющих агентам эффективно устанавливать и поддерживать общее понимание в ходе динамических многоагентных ситуаций.
## Метод
YLE — это кооперативная игра, в которой участники должны объединять карты в кластеры по цвету. Игра представляет собой окружение с многоагентным реинфорсментным обучением (Multi-Agent Reinforcement Learning, MARL), где агенты должны отслеживать эволюцию убеждений, запоминать предыдущие наблюдения и использовать подсказки как канал выражения целей. Одним из основных аспектов геймплея является то, что агенты должны следить за эволюцией скрытых ситуаций на доске и интерпретировать подсказки других игроков. Эта среда является вызовом для теории ТоМ, поскольку агенты должны совместно строить контекст в ходе развивающихся игр. Основные элементы методологии включают: агентские модели, ориентированные на моделирование убеждений, а также анализ их эффективности в условиях развивающихся и непредсказуемых условий.
## Результаты
В ходе экспериментов были проанализированы поведения агентов в различных условиях. Несмотря на то, что агенты имели доступ к идеальной памяти, они столкнулись с трудностями в решении сложных задач в YLE. Было замечено, что моделирование убеждений увеличивало эффективность, но не решало проблемы поддержания взаимопонимания в ходе длительных игр. Агенты часто полагались на локальные конвенции вместо устойчивого моделирования убеждений. Эти результаты подтверждают, что существующие методы ТоМ не достаточно сильны для решения более сложных задач, которые требуют более высокого уровня общего понимания.
## Значимость
YLE открывает новые возможности для исследований в области Теории Ума, в том числе моделирования убеждений, моделирования памяти и поддержки общего понимания в динамических многоагентных ситуациях. Он может быть применен в разработке новых методов для создания AI, способных эффективно командовать и кооператив
Abstract
Developing collaborative AI hinges on Theory of Mind (ToM) - the ability to
reason about the beliefs of others to build and maintain common ground.
Existing ToM benchmarks, however, are restricted to passive observer settings
or lack an assessment of how agents establish and maintain common ground over
time. To address these gaps, we introduce the Yokai Learning Environment (YLE)
- a multi-agent reinforcement learning (RL) environment based on the
cooperative card game Yokai. In the YLE, agents take turns peeking at hidden
cards and moving them to form clusters based on colour. Success requires
tracking evolving beliefs, remembering past observations, using hints as
grounded communication, and maintaining common ground with teammates. Our
evaluation yields two key findings: First, current RL agents struggle to solve
the YLE, even when given access to perfect memory. Second, while belief
modelling improves performance, agents are still unable to effectively
generalise to unseen partners or form accurate beliefs over longer games,
exposing a reliance on brittle conventions rather than robust belief tracking.
We use the YLE to investigate research questions in belief modelling, memory,
partner generalisation, and scaling to higher-order ToM.
Ссылки и действия
Дополнительные ресурсы: