The Personality Illusion: Revealing Dissociation Between Self-Reports & Behavior in LLMs
2509.03730v2
cs.AI, cs.CL, cs.CY, cs.LG, stat.ML
2025-09-08
Авторы:
Pengrui Han, Rafal Kocielnik, Peiyang Song, Ramit Debnath, Dean Mobbs, Anima Anandkumar, R. Michael Alvarez
Резюме на русском
## Контекст
Персональность, как набор характеристик и поведенческих тенденций, широко исследована в контексте человеческого поведения. Она используется для прогнозирования поведения, принятия решений и взаимодействия в различных сферах. В последние годы, с развитием бо LLM, возникло интересное взаимосвязи между личностью и их поведением. Однако, существуют значительные проблемы в изучении этого взаимодействия. Люди часто оценивают свою личность с помощью самооценочных методов, которые могут быть неточными. Боты LLM также могут отображать личностную иллюзию, где их самосвертка не точно отражает свой поведенческий вывод. Это наблюдение поднимает вопросы о точности и надежности использования личностных характеристик для предсказания поведения в LLMs.
## Метод
Для изучения этой проблемы была разработана систематическая методология, состоящая из трех основных этапов: 1) характеристика личностных характеристик в разные стадии тренировки LLM; 2) проверка того, насколько самооценка личности соответствует фактическому поведению в задачах; 3) изучение эффекта целенаправленных вмешательств, таких как персонализация, на самосвертку и поведение. Данные для экспериментов были получены с помощью различных моделей LLM, включая обученные с использованием методов руководящего ожидания (RLHF) и инструкционной тюнинг. Модели были протестированы на поведенческих задачах, связанных с саморегуляцией и согласованностью. Это позволило изучить, насколько личностная самосвертка влияет на поведение и насколько точно она может предсказывать реальное поведение.
## Результаты
Из исследования выяснилось, что инструкционное рвение (RLHF) и инструкционная тюнинг стабилизируют выражение личности в LLM и усиливают корреляции между самосверткой и поведением. Однако самосвертка не точно предсказывает поведение, и наблюдаемые связи часто отличаются от тех, которые встречаются в человеческих данных. При этом персонализация эффективно управляет самосверткой в нужном направлении, но оказывает мало или непоследовательное влияние на самосвертку и поведение. Эти результаты показывают, что личность в LLMs может быть отображена на поверхности, но не всегда отражает реальное поведение.
## Значимость
Полученные результаты имеют значимость в нескольких областях. Во-первых, они могут быть использованы для улучшения методов оценки индивидуальных личностных характеристик в LLMs, чтобы более точно предсказывать поведение. Во-вторых, они могут применяться в области разработки более согласованных и предсказуемых личностных моделе
Abstract
Personality traits have long been studied as predictors of human behavior.
Recent advances in Large Language Models (LLMs) suggest similar patterns may
emerge in artificial systems, with advanced LLMs displaying consistent
behavioral tendencies resembling human traits like agreeableness and
self-regulation. Understanding these patterns is crucial, yet prior work
primarily relied on simplified self-reports and heuristic prompting, with
little behavioral validation. In this study, we systematically characterize LLM
personality across three dimensions: (1) the dynamic emergence and evolution of
trait profiles throughout training stages; (2) the predictive validity of
self-reported traits in behavioral tasks; and (3) the impact of targeted
interventions, such as persona injection, on both self-reports and behavior.
Our findings reveal that instructional alignment (e.g., RLHF, instruction
tuning) significantly stabilizes trait expression and strengthens trait
correlations in ways that mirror human data. However, these self-reported
traits do not reliably predict behavior, and observed associations often
diverge from human patterns. While persona injection successfully steers
self-reports in the intended direction, it exerts little or inconsistent effect
on actual behavior. By distinguishing surface-level trait expression from
behavioral consistency, our findings challenge assumptions about LLM
personality and underscore the need for deeper evaluation in alignment and
interpretability.