PillagerBench: Benchmarking LLM-Based Agents in Competitive Minecraft Team Environments

2509.06235v1 cs.AI, cs.MA, I.2.11; I.2.6; I.2.8 2025-09-10

Авторы:

Olivier Schipper, Yudi Zhang, Yali Du, Mykola Pechenizkiy, Meng Fang

Резюме на русском

## Контекст Многоагентные системы, основанные на глубоких нейронных сетях (LLM-based agents), доказали свою эффективность в задачах кооперативного и стратегического разума. Однако их применение в конкурентных многоагентных средах, где необходима адаптация к стратегиям противников, остается мало исследовано. Это отклонение может быть обусловлено сложностью создания сред, где многоагентные системы могут противостоять противоборствующим субъектам в реальном времени. Одним из таких сред выступает Minecraft, предоставляющее уникальные возможности для моделирования таких сред. Однако существуют недостатки в существующих фреймворках для эффективного тестирования многоагентных систем в конкурентных сценариях. Мы предлагаем PillagerBench, фреймворк, который предлагает расширяемую архитектуру для экспериментов с многоагентными системами в Minecraft в реальном времени. ## Метод PillagerBench предлагает расширяемую архитектуру для тестирования многоагентных систем в Minecraft. Он включает в себя API, позволяющий интегрировать пользовательские агенты, и функцию для выполнения серии экспериментов, включая тестирование в разных сценариях. Фреймворк также предлагает встроенных противников, реализованных на основе правил, для создания конкурентных сред. Оптимизация тестирования включает в себя не только многоуровневые тесты, но и возможность измерения производительности систем в пределах одного эпизода игры, а также в течение серии эпизодов. Это позволяет эффективно оценивать стратегическое развитие агентов в течение времени. ## Результаты Мы провели эксперименты с TactiCrafter, LLM-based многоагентной системой, которая умеет работать в командных сценариях. Мы проверяли его во встроенных сценариях и сравнивали с базовыми подходами. Наши результаты показали, что TactiCrafter не только побеждает в тестах, но и продемонстрировал улучшение производительности в течение серии экспериментов, адаптируясь к стратегиям противников. Мы также исследовали процесс обучения TactiCrafter, включая то, как он научился выявлять зависимости между действиями и их последствиями, и как он модифицировал свою стратегию в зависимости от конкретного противника. ## Значимость PillagerBench и TactiCrafter могут быть применены в различных областях, включая искусственный интеллект в игровых средах, интерактивные системы, а также задачи, требующие стратегического рассуждения в конкурентных средах. Их преимущество заключается в том, что они могут помочь в понимании того, как многоагентные системы могут развиваться и оптимизировать свои стратегии в различных условиях. Это может привести к развитию более эффективных методов ре

Abstract

LLM-based agents have shown promise in various cooperative and strategic reasoning tasks, but their effectiveness in competitive multi-agent environments remains underexplored. To address this gap, we introduce PillagerBench, a novel framework for evaluating multi-agent systems in real-time competitive team-vs-team scenarios in Minecraft. It provides an extensible API, multi-round testing, and rule-based built-in opponents for fair, reproducible comparisons. We also propose TactiCrafter, an LLM-based multi-agent system that facilitates teamwork through human-readable tactics, learns causal dependencies, and adapts to opponent strategies. Our evaluation demonstrates that TactiCrafter outperforms baseline approaches and showcases adaptive learning through self-play. Additionally, we analyze its learning process and strategic evolution over multiple game episodes. To encourage further research, we have open-sourced PillagerBench, fostering advancements in multi-agent AI for competitive environments.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Резюме на русском

Abstract

Ссылки и действия

Навигация