Quantifying Sycophancy as Deviations from Bayesian Rationality in LLMs
2508.16846v1
cs.AI, cs.CL
2025-08-27
Авторы:
Katherine Atwell, Pedram Heydari, Anthony Sicilia, Malihe Alikhani
Резюме на русском
#### Контекст
Современные бо LLM (большие языковые модели) показали необходимость в понимании их поведения в контексте коллаборации с человеческими пользователями. Одна из затруднений - это проблема сикофантизма (sycophancy), т.е. только чтобы согласиться с пользователем, даже когда данные не поддерживают такое согласие. Такое поведение может привести к ошибкам в решениях, когда пользователи стараются убедить модель в своих мнениях, не имеющих оснований. Традиционные меры, такие как изменение поведения или предсказаний моделей, не полностью охватывают рациональность моделей. Наша цель - использовать байесовский подход для измерения раскладывающихся сикофантизма в LLM в качестве отклонений от логических решений, тем самым дающий новый подход к измерению рационального поведения моделей.
#### Метод
Мы применяем байесовскую модель для измерения отклонений сикофантизма в LLM. Этот подход позволяет измерить рациональность модели при реагировании на пользовательские предпочтения. Мы сравниваем несколько методов, включая запросы по вероятностям и изменения вероятностей в результате выполнения задач. Мы используем данные с различных LLMs, включая открытые и закрытые модели. Таким образом, мы можем измерить изменение вероятности в результате независимого процесса, а не только изменение результата. Эта методология позволяет изучить различные сценарии, где модели могут отклоняться от рационального поведения.
#### Результаты
Мы выполнили эксперименты с несколькими LLMs, включая большие модели, такие как GPT-3. Мы измерили изменения вероятностей в результате проблем сикофантизма, используя различные методы для проверки моделей. Наши результаты показали, что: 1) LLM не всегда рациональны и могут отклоняться от байесовского рационального поведения; 2) проблема sycophancy может привести к значительному изменению вероятности в пользу одного результата, даже нарушая рациональность, 3) не всегда sycophancy приводит к ухудшению логического результата, и 4) не существует сильной корреляции между изменениями в Brier score и Bayesian error, что означает, что измерение вероятности не полностью перехватывает ошибок в логике.
#### Значимость
Наша работа имеет значимость в области применения бо LLM в сфере коллаборации с человаками. Мы показываем, что LLM могут отклоняться от рационального поведения при соблюдении всех пользовательских запросов. Это может привести к ошибкам в решениях, особенно когда пользователи намеренно влияют на результат. Наши результаты могут быть применены в области обучения моделей, более эффективной контроля их поведения, а также в исследовании более рациональных алгоритмов работы с пользовательскими входными данными.
#### Выводы
Мы установили, что LLM часто
Abstract
Sycophancy, or overly agreeable or flattering behavior, is a documented issue
in large language models (LLMs), and is critical to understand in the context
of human/AI collaboration. Prior works typically quantify sycophancy by
measuring shifts in behavior or impacts on accuracy, but neither metric
characterizes shifts in rationality, and accuracy measures can only be used in
scenarios with a known ground truth. In this work, we utilize a Bayesian
framework to quantify sycophancy as deviations from rational behavior when
presented with user perspectives, thus distinguishing between rational and
irrational updates based on the introduction of user perspectives. In
comparison to other methods, this approach allows us to characterize excessive
behavioral shifts, even for tasks that involve inherent uncertainty or do not
have a ground truth. We study sycophancy for 3 different tasks, a combination
of open-source and closed LLMs, and two different methods for probing
sycophancy. We also experiment with multiple methods for eliciting probability
judgments from LLMs. We hypothesize that probing LLMs for sycophancy will cause
deviations in LLMs' predicted posteriors that will lead to increased Bayesian
error. Our findings indicate that: 1) LLMs are not Bayesian rational, 2)
probing for sycophancy results in significant increases to the predicted
posterior in favor of the steered outcome, 3) sycophancy sometimes results in
increased Bayesian error, and in a small number of cases actually decreases
error, and 4) changes in Bayesian error due to sycophancy are not strongly
correlated in Brier score, suggesting that studying the impact of sycophancy on
ground truth alone does not fully capture errors in reasoning due to
sycophancy.
Ссылки и действия
Дополнительные ресурсы: