Building and Measuring Trust between Large Language Models

2508.15858v1 cs.MA, cs.AI, cs.CL 2025-08-25
Авторы:

Maarten Buyl, Yousra Fettach, Guillaume Bied, Tijl De Bie

Резюме на русском

## Контекст В последние годы большие языковые модели (LLM) начали широко использоваться в различных областях, включая общение, помощь в решении задач и системы управления. Благодаря их мощи, LLMs могут провести диалоги, выполнять задачи и даже координировать свои действия в рамках многоагентных систем. Однако одной из наиболее важных проблемой в таких системах является доверительные отношения между моделями. Хотя люди часто развивают доверительные отношения друг с другом, существует недостаточно исследований, касающихся способами формирования доверия между LLMs и оценки этого доверия. Это проблема становится еще более актуальной в свете того, что LLMs все чаще используются в командных задачах, где доверие является ключевым фактором успеха. Цель данного исследования — изучить способы строительства доверия между LLMs и разработать методы его измерения. ## Метод Мы разработали архитектуру для изучения и измерения доверия между LLMs. Для этого использовались три основные подхода: 1. **Динамическое строительство отношений доверия**: Модели динамически строят доверие друг к другу в ходе взаимодействия, аналогично тому, как люди формируют отношения в ходе диалогов. 2. **Использование предварительно написанных скриптов**: Мы использовали скрипты, в которых явно происходит доверительное воздействие, чтобы изучить, как модели реагируют на уже сформированные отношения. 3. **Адаптация системных пропусков**: Мы изменяли системные пропуски в моделях, чтобы изменить их поведение в процессе взаимодействия. Для измерения доверия мы применяли два подхода: - **Имплицитные меры**: Мы изучали, насколько модели влияют друг на друга, например, степень убежденности одной модели другой, или степень сотрудничества в финансовых действиях. - **Эксплицитные меры**: Мы применяли тесты, аналогичные психологическим тестам доверия, в которых модели отвечают на вопросы о том, насколько они доверяют друг другу. ## Результаты Мы провели ряд экспериментов, в ходе которых измеряли уровень доверия между моделями. Нашли, что имплицитные меры доверия, такие как убежденность и сотрудничество, часто не соответствуют эксплицитным мерам доверия, которые были измерены с помощью тестов в опросном формате. Например, модели, которые отображали высокий уровень доверия в имплицитных тестах, могли отображать низкий уровень доверия в эксплицитных тестах. Это указывает на то, что LLMs могут иметь разные способности воспринимать доверие в зависимости от контекста и подхода к измерению. ## Значимость Наши результаты имеют значительную значимость в област

Abstract

As large language models (LLMs) increasingly interact with each other, most notably in multi-agent setups, we may expect (and hope) that `trust' relationships develop between them, mirroring trust relationships between human colleagues, friends, or partners. Yet, though prior work has shown LLMs to be capable of identifying emotional connections and recognizing reciprocity in trust games, little remains known about (i) how different strategies to build trust compare, (ii) how such trust can be measured implicitly, and (iii) how this relates to explicit measures of trust. We study these questions by relating implicit measures of trust, i.e. susceptibility to persuasion and propensity to collaborate financially, with explicit measures of trust, i.e. a dyadic trust questionnaire well-established in psychology. We build trust in three ways: by building rapport dynamically, by starting from a prewritten script that evidences trust, and by adapting the LLMs' system prompt. Surprisingly, we find that the measures of explicit trust are either little or highly negatively correlated with implicit trust measures. These findings suggest that measuring trust between LLMs by asking their opinion may be deceiving. Instead, context-specific and implicit measures may be more informative in understanding how LLMs trust each other.

Ссылки и действия