PillagerBench: Benchmarking LLM-Based Agents in Competitive Minecraft Team Environments
2509.06235v1
cs.AI, cs.MA, I.2.11; I.2.6; I.2.8
2025-09-10
Авторы:
Olivier Schipper, Yudi Zhang, Yali Du, Mykola Pechenizkiy, Meng Fang
Резюме на русском
## Контекст
Многоагентные системы, основанные на глубоких нейронных сетях (LLM-based agents), доказали свою эффективность в задачах кооперативного и стратегического разума. Однако их применение в конкурентных многоагентных средах, где необходима адаптация к стратегиям противников, остается мало исследовано. Это отклонение может быть обусловлено сложностью создания сред, где многоагентные системы могут противостоять противоборствующим субъектам в реальном времени. Одним из таких сред выступает Minecraft, предоставляющее уникальные возможности для моделирования таких сред. Однако существуют недостатки в существующих фреймворках для эффективного тестирования многоагентных систем в конкурентных сценариях. Мы предлагаем PillagerBench, фреймворк, который предлагает расширяемую архитектуру для экспериментов с многоагентными системами в Minecraft в реальном времени.
## Метод
PillagerBench предлагает расширяемую архитектуру для тестирования многоагентных систем в Minecraft. Он включает в себя API, позволяющий интегрировать пользовательские агенты, и функцию для выполнения серии экспериментов, включая тестирование в разных сценариях. Фреймворк также предлагает встроенных противников, реализованных на основе правил, для создания конкурентных сред. Оптимизация тестирования включает в себя не только многоуровневые тесты, но и возможность измерения производительности систем в пределах одного эпизода игры, а также в течение серии эпизодов. Это позволяет эффективно оценивать стратегическое развитие агентов в течение времени.
## Результаты
Мы провели эксперименты с TactiCrafter, LLM-based многоагентной системой, которая умеет работать в командных сценариях. Мы проверяли его во встроенных сценариях и сравнивали с базовыми подходами. Наши результаты показали, что TactiCrafter не только побеждает в тестах, но и продемонстрировал улучшение производительности в течение серии экспериментов, адаптируясь к стратегиям противников. Мы также исследовали процесс обучения TactiCrafter, включая то, как он научился выявлять зависимости между действиями и их последствиями, и как он модифицировал свою стратегию в зависимости от конкретного противника.
## Значимость
PillagerBench и TactiCrafter могут быть применены в различных областях, включая искусственный интеллект в игровых средах, интерактивные системы, а также задачи, требующие стратегического рассуждения в конкурентных средах. Их преимущество заключается в том, что они могут помочь в понимании того, как многоагентные системы могут развиваться и оптимизировать свои стратегии в различных условиях. Это может привести к развитию более эффективных методов ре
Abstract
LLM-based agents have shown promise in various cooperative and strategic
reasoning tasks, but their effectiveness in competitive multi-agent
environments remains underexplored. To address this gap, we introduce
PillagerBench, a novel framework for evaluating multi-agent systems in
real-time competitive team-vs-team scenarios in Minecraft. It provides an
extensible API, multi-round testing, and rule-based built-in opponents for
fair, reproducible comparisons. We also propose TactiCrafter, an LLM-based
multi-agent system that facilitates teamwork through human-readable tactics,
learns causal dependencies, and adapts to opponent strategies. Our evaluation
demonstrates that TactiCrafter outperforms baseline approaches and showcases
adaptive learning through self-play. Additionally, we analyze its learning
process and strategic evolution over multiple game episodes. To encourage
further research, we have open-sourced PillagerBench, fostering advancements in
multi-agent AI for competitive environments.