CHBench: A Cognitive Hierarchy Benchmark for Evaluating Strategic Reasoning Capability of LLMs

2508.11944v1 cs.AI, cs.CL, cs.HC 2025-08-19

Авторы:

Hongtao Liu, Zhicheng Du, Zihe Wang, Weiran Shen

Резюме на русском

## Контекст Стратегическое разумение является ключевым аспектом искусственного разума, определяющим успешность взаимодействия роботов с окружающим миром. Оценивать этот аспект чрезвычайно сложно, так как существующие методы часто основываются на метриках эффективности, которые оказываются недостаточно надежными из-за разнообразия поведенческих моделей противников и структур игр. Недостаток универсальных методов по evaluation стратегического разума значительно ограничивает возможности интеллектуальных систем внедряться в реальные приложения. Для решения этой проблемы, мы предлагаем **CHBench** — новый фреймворк для оценки стратегического разума, основанный на моделях когнитивного хиерархии, известных из экономической теории. Наша гипотеза заключается в том, что агенты имеют ограниченное разумение, то есть различные агенты применяют разные уровни рациональности в своих решениях. ## Метод CHBench представляет собой трехфазную систематическую модель для оценки стратегического разума. В первой фазе мы выбираем 15 нормальных игр, структура которых позволяет выявить различные уровни стратегического разума. Во второй фазе, мы используем данные из шести современных глубоких нейронных сетей (LLMs), обученных различным типам задач, чтобы получить многообразие стратегических моделей. Затем, в третьей фазе, мы применяем эти модели для систематического тестирования поведения LLMs в разных ситуациях. Использование этой модели позволяет установить не только качество поведения LLMs, но и выявить влияние различных механизмов (например, чат-функции и памяти) на их стратегическое решающие способности. ## Результаты Мы провели эксперименты, используя CHBench для оценки шести современных LLMs в 15 играх. Результаты показали, что LLMs показывают схожую стратегическую работу в разных ситуациях, что confirmeaza логику фреймворка. Мы также провели эксперименты, которые показали, что Chat Mechanism сильно затрудняет стратегическое разумение, но Memory Mechanism улучшает его. Эти результаты подтверждают, что CHBench представляет собой надежный инструмент для оценки стратегического разума LLMs, с возможностью применения в различных прикладных задачах. ## Значимость CHBench может быть применен в различных прикладных областях, включая разработку и оценку стратегических алгоритмов, ботов для игр, систем управления и даже в сфере роботов-консультантов. Он предлагает новый подход к оценке стратегии, который не зависит от конкретных метрик эффективности. Это позволяет оценивать стратегическое разумение llms с более широким перспективным взглядом, с учетом разных моделей рациональности. Мы так

Abstract

Game-playing ability serves as an indicator for evaluating the strategic reasoning capability of large language models (LLMs). While most existing studies rely on utility performance metrics, which are not robust enough due to variations in opponent behavior and game structure. To address this limitation, we propose \textbf{Cognitive Hierarchy Benchmark (CHBench)}, a novel evaluation framework inspired by the cognitive hierarchy models from behavioral economics. We hypothesize that agents have bounded rationality -- different agents behave at varying reasoning depths/levels. We evaluate LLMs' strategic reasoning through a three-phase systematic framework, utilizing behavioral data from six state-of-the-art LLMs across fifteen carefully selected normal-form games. Experiments show that LLMs exhibit consistent strategic reasoning levels across diverse opponents, confirming the framework's robustness and generalization capability. We also analyze the effects of two key mechanisms (Chat Mechanism and Memory Mechanism) on strategic reasoning performance. Results indicate that the Chat Mechanism significantly degrades strategic reasoning, whereas the Memory Mechanism enhances it. These insights position CHBench as a promising tool for evaluating LLM capabilities, with significant potential for future research and practical applications.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

CHBench: A Cognitive Hierarchy Benchmark for Evaluating Strategic Reasoning Capability of LLMs

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

The AI Consumer Index (ACE)

Through the Judge's Eyes: Inferred Thinking Traces Improve Reliability of LLM Ra...

How Do AI Agents Do Human Work? Comparing AI and Human Workflows Across Diverse ...

Planning Ahead with RSA: Efficient Signalling in Dynamic Environments by Project...

Everyone prefers human writers, including AI

Навигация