Board Game Arena: A Framework and Benchmark for Assessing Large Language Models via Strategic Play
2508.03368v1
cs.AI, cs.GT
2025-08-06
Авторы:
Lucia Cipolina-Kun, Marianna Nezhurina, Jenia Jitsev
Резюме на русском
**Резюме:**
В статье представлен фреймворк Board Game Arena, предназначенный для оценки способностей крупных языковых моделей (LLM) к стратегическому принятию решений через игры. Используя библиотеку Google OpenSpiel, фреймворк обеспечивает систематическое сравнение LLM-агентов с другими типами агентов (случайными, человеческими, обученными усилением) в различных типах игр. Он поддерживает интеграцию с API моделей через LiteLLM, локальную развёртку моделей с vLLM и распределённое выполнение задач через Ray. Также предлагаются инструменты для детального анализа процессов резонирования LLM. Результаты показывают, что фреймворк эффективен для эмпирической оценки способностей LLMs к логическому мышлению и игротеоретическому поведению, предоставляя солидную базу для дальнейшего исследования в этой области.
Abstract
The Board Game Arena library provides a framework for evaluating the decision
making abilities of large language models (LLMs) through strategic board games
implemented in Google OpenSpiel library. The framework enables systematic
comparisons between LLM based agents and other agents (random, human,
reinforcement learning agents, etc.) in various game scenarios by wrapping
multiple board and matrix games and supporting different agent types. It
integrates API access to models via LiteLLM, local model deployment via vLLM,
and offers distributed execution through Ray. Additionally it provides
extensive analysis tools for the LLM reasoning traces. This paper summarizes
the structure, key characteristics, and motivation of the repository,
highlighting how it contributes to the empirical evaluation of the reasoning of
LLM and game-theoretic behavior
Ссылки и действия
Дополнительные ресурсы: