CORE: Measuring Multi-Agent LLM Interaction Quality under Game-Theoretic Pressures

2508.11915v1 cs.CL, cs.AI, cs.LG 2025-08-19

Авторы:

Punya Syon Pandey, Yongjin Yang, Jiarui Liu, Zhijing Jin

Резюме на русском

## Контекст Игрокотеоретические взаимодействия между агентами с Large Language Models (LLMs) открыли новые возможности в области искусственного интеллекта, демонстрируя развитие новых языковых способностей. Однако эти взаимодействия характеризуются богатой лингвистической разнообразием, который до сих пор недостаточно оценен. Большинство метрик, используемых для оценки языковой производительности, не учитывают индивидуальные особенности игрокотеоретических взаимодействий. Целью данного исследования является разработка метрики, которая бы позволила эффективно измерить качество монологических и диалогических высказываний в различных игрокотеоретических сценариях. ## Метод Метрика CORE (Conversational Robustness Evaluation Score) основывается на измерении трех ключевых аспектов языкового поведения: кластеризации слов, лексической повторяемости и семантической схожести. Метод включает в себя анализ динамики распределения слов в диалоге, а также использует Zipf's и Heaps' Laws для описания распределения частот слов и роста словарного запаса. Для сравнения различных игрокотеоретических сценариев (конкурентные, сотрудничественные, нейтральные), CORE использует выборку диалогов между LLMs. Это позволяет углубленно изучить как эффективность языка, так и его адаптацию в различных социальных контекстах. ## Результаты Испытания показали, что в кооперативных сценариях Zipf's и Heaps' Laws демонстрируют стрелеующие распределения, что свидетельствует о более высокой репликации лексики и богатом росте лексикографического запаса. Напротив, в конкурентных сценариях эти законы отражают более ограниченную лексическую деятельность и меньшую репликацию. Эти результаты демонстрируют, как сильные социальные интриги влияют на адаптацию языка, а также подтверждают значимость CORE в качестве диагностического инструмента для измерения языковой производительности в многоагентных системах. ## Значимость CORE может использоваться в различных областях, где важно измерить качество монологических и диалогических языковых высказываний, включая обучение ЛСМ, анализ коммуникационных систем, игровые системы и даже психологическое исследование поведения в командных задачах. Одним из ключевых преимуществ CORE является его универсальность и точность, что позволяет создавать более надежные модели и тесты для измерения языкового взаимодействия. ## Выводы Результаты исследования показали, что CORE является эффективной метрикой для измерения языкового качества в игрокотеоретических системах. Будущие исследования будут сфокусированы на расширении CORE для дру

Abstract

Game-theoretic interactions between agents with Large Language Models (LLMs) have revealed many emergent capabilities, yet the linguistic diversity of these interactions has not been sufficiently quantified. In this paper, we present the Conversational Robustness Evaluation Score: CORE, a metric to quantify the effectiveness of language use within multi-agent systems across different game-theoretic interactions. CORE integrates measures of cluster entropy, lexical repetition, and semantic similarity, providing a direct lens of dialog quality. We apply CORE to pairwise LLM dialogs across competitive, cooperative, and neutral settings, further grounding our analysis in Zipf's and Heaps' Laws to characterize word frequency distributions and vocabulary growth. Our findings show that cooperative settings exhibit both steeper Zipf distributions and higher Heap exponents, indicating more repetition alongside greater vocabulary expansion. In contrast, competitive interactions display lower Zipf and Heaps exponents, reflecting less repetition and more constrained vocabularies. These results provide new insights into how social incentives influence language adaptation, and highlight CORE as a robust diagnostic for measuring linguistic robustness in multi-agent LLM systems. Our code is available at https://github.com/psyonp/core.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

CORE: Measuring Multi-Agent LLM Interaction Quality under Game-Theoretic Pressures

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Arbitrage: Efficient Reasoning via Advantage-Aware Speculation

Structured Document Translation via Format Reinforcement Learning

Principled RL for Diffusion LLMs Emerges from a Sequence-Level Perspective

Agreement-Constrained Probabilistic Minimum Bayes Risk Decoding

SUPERChem: A Multimodal Reasoning Benchmark in Chemistry

Навигация