MillStone: How Open-Minded Are LLMs?
2509.11967v2
cs.LG, cs.CL
2025-09-17
Авторы:
Harold Triedman, Vitaly Shmatikov
Резюме на русском
#### Контекст
Large language models (LLMs), оснащенные возможностями веб-поиска и информационного ретриева, начали заменить традиционные поисковые системы. Пользователи все чаще полагаются на LLMs для получения информации о различных темах, включая спорные и делимые. Однако важно понять, как ставки и мнения, выраженные в получаемых ответах LLMs, зависят от документов, используемых в качестве источников информации. Это имеет решающее значение для оценки нейтральности и открытости моделей к разным точкам зрения.
В данной работе представлен бенчмарк MillStone, первый, который направлен на систематическое измерение влияния внешних аргументов на ставки LLMs в спорных вопросах (не только политических). Мы применяем MillStone к девяти ведущим LLMs и изучаем, насколько "открыты" они к аргументам, освещающим разные стороны спорных вопросов, как согласны они между собой, какие аргументы наиболее убедительны и повторяются в разных моделях.
Мы обнаружили, что LLMs в общем-то открыты к разным точкам зрения на большинство вопросов. Однако авторитетный источник информации с легкостью может повлиять на ставку LLM, что подчеркивает важность выбора источников и риск возможной манипуляции LLM-системами поиска информации.
#### Метод
MillStone — это коллекция спорных вопросов, каждый из которых представлен в виде двух взаимоисключающих позиций. Мы измеряем, насколько LLMs открыты к аргументам, поддерживающим каждую из этих позиций, используя две основные метрики: **Agreement** (насколько LLMs поддерживают одну и ту же позицию) и **Argument Impact** (насколько выбранные аргументы влияют на ставку LLM).
Мы применяем MillStone к девяти LLMs, включая самые популярные (например, GPT-3.5, Claude-2, LLaMA-2). Выбор аргументов основывается на источниках, таких как Wikipedia, Reuters, и другие надежные онлайн-источники. Мы проводим многократные эксперименты с различными настройками, включая разные варианты формулировок вопросов и порядки аргументов.
#### Результаты
Мы обнаружили, что LLMs в общем-то открыты к разным сторонам вопросов, но их открытость зависит от источника аргумента. Например, если один LLM склоняется к одной позиции, то другой LLM может склониться к другой, даже при использовании одинаковых аргументов. Это указывает на различия в интерпретации аргументов.
Мы также обнаружили, что аргументы из авторитетных источников, таких как Reuters, имеют наибольшее влияние на ставку LLM. Напротив, аргументы из менее авторитетных источников (например, википедии) влияют на LLM в меньшей степени. Это подтверждает риск возможных манипуляций, если малоавторитетные или поддельные источники б
Abstract
Large language models equipped with Web search, information retrieval tools,
and other agentic capabilities are beginning to supplant traditional search
engines. As users start to rely on LLMs for information on many topics,
including controversial and debatable issues, it is important to understand how
the stances and opinions expressed in LLM outputs are influenced by the
documents they use as their information sources.
In this paper, we present MillStone, the first benchmark that aims to
systematically measure the effect of external arguments on the stances that
LLMs take on controversial issues (not all of them political). We apply
MillStone to nine leading LLMs and measure how ``open-minded'' they are to
arguments supporting opposite sides of these issues, whether different LLMs
agree with each other, which arguments LLMs find most persuasive, and whether
these arguments are the same for different LLMs.
In general, we find that LLMs are open-minded on most issues. An
authoritative source of information can easily sway an LLM's stance,
highlighting the importance of source selection and the risk that LLM-based
information retrieval and search systems can be manipulated.
Ссылки и действия
Дополнительные ресурсы: