Building and Measuring Trust between Large Language Models
2508.15858v1
cs.MA, cs.AI, cs.CL
2025-08-25
Авторы:
Maarten Buyl, Yousra Fettach, Guillaume Bied, Tijl De Bie
Резюме на русском
## Контекст
В последние годы большие языковые модели (LLM) начали широко использоваться в различных областях, включая общение, помощь в решении задач и системы управления. Благодаря их мощи, LLMs могут провести диалоги, выполнять задачи и даже координировать свои действия в рамках многоагентных систем. Однако одной из наиболее важных проблемой в таких системах является доверительные отношения между моделями. Хотя люди часто развивают доверительные отношения друг с другом, существует недостаточно исследований, касающихся способами формирования доверия между LLMs и оценки этого доверия. Это проблема становится еще более актуальной в свете того, что LLMs все чаще используются в командных задачах, где доверие является ключевым фактором успеха. Цель данного исследования — изучить способы строительства доверия между LLMs и разработать методы его измерения.
## Метод
Мы разработали архитектуру для изучения и измерения доверия между LLMs. Для этого использовались три основные подхода:
1. **Динамическое строительство отношений доверия**: Модели динамически строят доверие друг к другу в ходе взаимодействия, аналогично тому, как люди формируют отношения в ходе диалогов.
2. **Использование предварительно написанных скриптов**: Мы использовали скрипты, в которых явно происходит доверительное воздействие, чтобы изучить, как модели реагируют на уже сформированные отношения.
3. **Адаптация системных пропусков**: Мы изменяли системные пропуски в моделях, чтобы изменить их поведение в процессе взаимодействия.
Для измерения доверия мы применяли два подхода:
- **Имплицитные меры**: Мы изучали, насколько модели влияют друг на друга, например, степень убежденности одной модели другой, или степень сотрудничества в финансовых действиях.
- **Эксплицитные меры**: Мы применяли тесты, аналогичные психологическим тестам доверия, в которых модели отвечают на вопросы о том, насколько они доверяют друг другу.
## Результаты
Мы провели ряд экспериментов, в ходе которых измеряли уровень доверия между моделями. Нашли, что имплицитные меры доверия, такие как убежденность и сотрудничество, часто не соответствуют эксплицитным мерам доверия, которые были измерены с помощью тестов в опросном формате. Например, модели, которые отображали высокий уровень доверия в имплицитных тестах, могли отображать низкий уровень доверия в эксплицитных тестах. Это указывает на то, что LLMs могут иметь разные способности воспринимать доверие в зависимости от контекста и подхода к измерению.
## Значимость
Наши результаты имеют значительную значимость в област
Abstract
As large language models (LLMs) increasingly interact with each other, most
notably in multi-agent setups, we may expect (and hope) that `trust'
relationships develop between them, mirroring trust relationships between human
colleagues, friends, or partners. Yet, though prior work has shown LLMs to be
capable of identifying emotional connections and recognizing reciprocity in
trust games, little remains known about (i) how different strategies to build
trust compare, (ii) how such trust can be measured implicitly, and (iii) how
this relates to explicit measures of trust.
We study these questions by relating implicit measures of trust, i.e.
susceptibility to persuasion and propensity to collaborate financially, with
explicit measures of trust, i.e. a dyadic trust questionnaire well-established
in psychology. We build trust in three ways: by building rapport dynamically,
by starting from a prewritten script that evidences trust, and by adapting the
LLMs' system prompt. Surprisingly, we find that the measures of explicit trust
are either little or highly negatively correlated with implicit trust measures.
These findings suggest that measuring trust between LLMs by asking their
opinion may be deceiving. Instead, context-specific and implicit measures may
be more informative in understanding how LLMs trust each other.
Ссылки и действия
Дополнительные ресурсы: