MillStone: How Open-Minded Are LLMs?

2509.11967v2 cs.LG, cs.CL 2025-09-17

Авторы:

Harold Triedman, Vitaly Shmatikov

Резюме на русском

#### Контекст Large language models (LLMs), оснащенные возможностями веб-поиска и информационного ретриева, начали заменить традиционные поисковые системы. Пользователи все чаще полагаются на LLMs для получения информации о различных темах, включая спорные и делимые. Однако важно понять, как ставки и мнения, выраженные в получаемых ответах LLMs, зависят от документов, используемых в качестве источников информации. Это имеет решающее значение для оценки нейтральности и открытости моделей к разным точкам зрения. В данной работе представлен бенчмарк MillStone, первый, который направлен на систематическое измерение влияния внешних аргументов на ставки LLMs в спорных вопросах (не только политических). Мы применяем MillStone к девяти ведущим LLMs и изучаем, насколько "открыты" они к аргументам, освещающим разные стороны спорных вопросов, как согласны они между собой, какие аргументы наиболее убедительны и повторяются в разных моделях. Мы обнаружили, что LLMs в общем-то открыты к разным точкам зрения на большинство вопросов. Однако авторитетный источник информации с легкостью может повлиять на ставку LLM, что подчеркивает важность выбора источников и риск возможной манипуляции LLM-системами поиска информации. #### Метод MillStone — это коллекция спорных вопросов, каждый из которых представлен в виде двух взаимоисключающих позиций. Мы измеряем, насколько LLMs открыты к аргументам, поддерживающим каждую из этих позиций, используя две основные метрики: **Agreement** (насколько LLMs поддерживают одну и ту же позицию) и **Argument Impact** (насколько выбранные аргументы влияют на ставку LLM). Мы применяем MillStone к девяти LLMs, включая самые популярные (например, GPT-3.5, Claude-2, LLaMA-2). Выбор аргументов основывается на источниках, таких как Wikipedia, Reuters, и другие надежные онлайн-источники. Мы проводим многократные эксперименты с различными настройками, включая разные варианты формулировок вопросов и порядки аргументов. #### Результаты Мы обнаружили, что LLMs в общем-то открыты к разным сторонам вопросов, но их открытость зависит от источника аргумента. Например, если один LLM склоняется к одной позиции, то другой LLM может склониться к другой, даже при использовании одинаковых аргументов. Это указывает на различия в интерпретации аргументов. Мы также обнаружили, что аргументы из авторитетных источников, таких как Reuters, имеют наибольшее влияние на ставку LLM. Напротив, аргументы из менее авторитетных источников (например, википедии) влияют на LLM в меньшей степени. Это подтверждает риск возможных манипуляций, если малоавторитетные или поддельные источники б

Abstract

Large language models equipped with Web search, information retrieval tools, and other agentic capabilities are beginning to supplant traditional search engines. As users start to rely on LLMs for information on many topics, including controversial and debatable issues, it is important to understand how the stances and opinions expressed in LLM outputs are influenced by the documents they use as their information sources. In this paper, we present MillStone, the first benchmark that aims to systematically measure the effect of external arguments on the stances that LLMs take on controversial issues (not all of them political). We apply MillStone to nine leading LLMs and measure how ``open-minded'' they are to arguments supporting opposite sides of these issues, whether different LLMs agree with each other, which arguments LLMs find most persuasive, and whether these arguments are the same for different LLMs. In general, we find that LLMs are open-minded on most issues. An authoritative source of information can easily sway an LLM's stance, highlighting the importance of source selection and the risk that LLM-based information retrieval and search systems can be manipulated.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

MillStone: How Open-Minded Are LLMs?

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Natural Language Actor-Critic: Scalable Off-Policy Learning in Language Space

Towards Active Synthetic Data Generation for Finetuning Language Models

AlignSAE: Concept-Aligned Sparse Autoencoders

Measuring What LLMs Think They Do: SHAP Faithfulness and Deployability on Financ...

BanglaSentNet: An Explainable Hybrid Deep Learning Framework for Multi-Aspect Se...

Навигация