The Personality Illusion: Revealing Dissociation Between Self-Reports & Behavior in LLMs
2509.03730v1
cs.AI, cs.CL, cs.CY, cs.LG, stat.ML
2025-09-06
Авторы:
Pengrui Han, Rafal Kocielnik, Peiyang Song, Ramit Debnath, Dean Mobbs, Anima Anandkumar, R. Michael Alvarez
Резюме на русском
## Контекст
Область исследования связана с исследованием личностных характеристик и их влияния на поведение, обсуждаемых как в человеческих, так и в искусственных системах. Несмотря на долгое время исследования личности, существуют проблемы в том, как эффективно измерить и предсказать поведение на основе личностных характеристик. Одной из главных причин этому является несоответствие между самооценками личности и фактическим поведением. Это проблема дополнительно усиливается при изучении искусственных систем, таких как Большие Лингвистические Модели (LLM), которые могут отображать похожие личностные тренды, но их поведение может отличаться от людей. Это приводит к необходимости понять, насколько характеристики в LLM зеркалируют реальность и на сколько они влияют на поведение.
## Метод
Для исследования LLM личности, авторы применяют систематический подход, состоящий из трех основных измерений. Во-первых, они выясняют, как личностные характеристики возникают и меняются во время обучения модели. Во-вторых, оценивается, насколько самооценка личности соответствует фактическим поведенческим задачам. И, наконец, в третьих, исследуется то, как целенаправленные интервенции, такие как "инъекция личности", влияют на оба аспекта - самооценку и поведение. Была использована методология тренировки модели с использованием различных вариантов инструкций и стимулов, чтобы выявить сильные и слабые стороны взаимосвязи личности и поведения.
## Результаты
Исследование показало, что инструкционное выравнивание (например, Reinforcement Learning from Human Feedback, инструкционное тюнинг) стабилизирует выражение личностных черт и укрепляет их корреляции. Однако, несмотря на то, что самооценка личности может быть успешно "вдохновлена" целевой инъекцией, она часто не сильно влияет на фактическое поведение модели. И, что может быть еще более важно, полученные результаты показали, что различные личностные характеристики могут отличаться по вероятности их появления в LLM, но это не всегда соотносится с поведенческими задачами, в которых модель принимает участие. Это означает, что, несмотря на то, что LLM может выражать личностные характеристики, она часто не демонстрирует соответствующего поведения.
## Значимость
Набор полученных результатов имеет значительное значение для широкого спектра областей. Во-первых, полученные результаты могут быть применены в разработке более человечных интерфейсов, где LLM могут отображать личностную сторону, но с учетом реального поведения. Во-вторых, эти находки могут быть полезны в области проверки
Abstract
Personality traits have long been studied as predictors of human
behavior.Recent advances in Large Language Models (LLMs) suggest similar
patterns may emerge in artificial systems, with advanced LLMs displaying
consistent behavioral tendencies resembling human traits like agreeableness and
self-regulation. Understanding these patterns is crucial, yet prior work
primarily relied on simplified self-reports and heuristic prompting, with
little behavioral validation. In this study, we systematically characterize LLM
personality across three dimensions: (1) the dynamic emergence and evolution of
trait profiles throughout training stages; (2) the predictive validity of
self-reported traits in behavioral tasks; and (3) the impact of targeted
interventions, such as persona injection, on both self-reports and behavior.
Our findings reveal that instructional alignment (e.g., RLHF, instruction
tuning) significantly stabilizes trait expression and strengthens trait
correlations in ways that mirror human data. However, these self-reported
traits do not reliably predict behavior, and observed associations often
diverge from human patterns. While persona injection successfully steers
self-reports in the intended direction, it exerts little or inconsistent effect
on actual behavior. By distinguishing surface-level trait expression from
behavioral consistency, our findings challenge assumptions about LLM
personality and underscore the need for deeper evaluation in alignment and
interpretability.