CORE: Measuring Multi-Agent LLM Interaction Quality under Game-Theoretic Pressures
2508.11915v1
cs.CL, cs.AI, cs.LG
2025-08-19
Авторы:
Punya Syon Pandey, Yongjin Yang, Jiarui Liu, Zhijing Jin
Резюме на русском
## Контекст
Игрокотеоретические взаимодействия между агентами с Large Language Models (LLMs) открыли новые возможности в области искусственного интеллекта, демонстрируя развитие новых языковых способностей. Однако эти взаимодействия характеризуются богатой лингвистической разнообразием, который до сих пор недостаточно оценен. Большинство метрик, используемых для оценки языковой производительности, не учитывают индивидуальные особенности игрокотеоретических взаимодействий. Целью данного исследования является разработка метрики, которая бы позволила эффективно измерить качество монологических и диалогических высказываний в различных игрокотеоретических сценариях.
## Метод
Метрика CORE (Conversational Robustness Evaluation Score) основывается на измерении трех ключевых аспектов языкового поведения: кластеризации слов, лексической повторяемости и семантической схожести. Метод включает в себя анализ динамики распределения слов в диалоге, а также использует Zipf's и Heaps' Laws для описания распределения частот слов и роста словарного запаса. Для сравнения различных игрокотеоретических сценариев (конкурентные, сотрудничественные, нейтральные), CORE использует выборку диалогов между LLMs. Это позволяет углубленно изучить как эффективность языка, так и его адаптацию в различных социальных контекстах.
## Результаты
Испытания показали, что в кооперативных сценариях Zipf's и Heaps' Laws демонстрируют стрелеующие распределения, что свидетельствует о более высокой репликации лексики и богатом росте лексикографического запаса. Напротив, в конкурентных сценариях эти законы отражают более ограниченную лексическую деятельность и меньшую репликацию. Эти результаты демонстрируют, как сильные социальные интриги влияют на адаптацию языка, а также подтверждают значимость CORE в качестве диагностического инструмента для измерения языковой производительности в многоагентных системах.
## Значимость
CORE может использоваться в различных областях, где важно измерить качество монологических и диалогических языковых высказываний, включая обучение ЛСМ, анализ коммуникационных систем, игровые системы и даже психологическое исследование поведения в командных задачах. Одним из ключевых преимуществ CORE является его универсальность и точность, что позволяет создавать более надежные модели и тесты для измерения языкового взаимодействия.
## Выводы
Результаты исследования показали, что CORE является эффективной метрикой для измерения языкового качества в игрокотеоретических системах. Будущие исследования будут сфокусированы на расширении CORE для дру
Abstract
Game-theoretic interactions between agents with Large Language Models (LLMs)
have revealed many emergent capabilities, yet the linguistic diversity of these
interactions has not been sufficiently quantified. In this paper, we present
the Conversational Robustness Evaluation Score: CORE, a metric to quantify the
effectiveness of language use within multi-agent systems across different
game-theoretic interactions. CORE integrates measures of cluster entropy,
lexical repetition, and semantic similarity, providing a direct lens of dialog
quality. We apply CORE to pairwise LLM dialogs across competitive, cooperative,
and neutral settings, further grounding our analysis in Zipf's and Heaps' Laws
to characterize word frequency distributions and vocabulary growth. Our
findings show that cooperative settings exhibit both steeper Zipf distributions
and higher Heap exponents, indicating more repetition alongside greater
vocabulary expansion. In contrast, competitive interactions display lower Zipf
and Heaps exponents, reflecting less repetition and more constrained
vocabularies. These results provide new insights into how social incentives
influence language adaptation, and highlight CORE as a robust diagnostic for
measuring linguistic robustness in multi-agent LLM systems. Our code is
available at https://github.com/psyonp/core.
Ссылки и действия
Дополнительные ресурсы: