The Personality Illusion: Revealing Dissociation Between Self-Reports & Behavior in LLMs

2509.03730v2 cs.AI, cs.CL, cs.CY, cs.LG, stat.ML 2025-09-08
Авторы:

Pengrui Han, Rafal Kocielnik, Peiyang Song, Ramit Debnath, Dean Mobbs, Anima Anandkumar, R. Michael Alvarez

Резюме на русском

## Контекст Персональность, как набор характеристик и поведенческих тенденций, широко исследована в контексте человеческого поведения. Она используется для прогнозирования поведения, принятия решений и взаимодействия в различных сферах. В последние годы, с развитием бо LLM, возникло интересное взаимосвязи между личностью и их поведением. Однако, существуют значительные проблемы в изучении этого взаимодействия. Люди часто оценивают свою личность с помощью самооценочных методов, которые могут быть неточными. Боты LLM также могут отображать личностную иллюзию, где их самосвертка не точно отражает свой поведенческий вывод. Это наблюдение поднимает вопросы о точности и надежности использования личностных характеристик для предсказания поведения в LLMs. ## Метод Для изучения этой проблемы была разработана систематическая методология, состоящая из трех основных этапов: 1) характеристика личностных характеристик в разные стадии тренировки LLM; 2) проверка того, насколько самооценка личности соответствует фактическому поведению в задачах; 3) изучение эффекта целенаправленных вмешательств, таких как персонализация, на самосвертку и поведение. Данные для экспериментов были получены с помощью различных моделей LLM, включая обученные с использованием методов руководящего ожидания (RLHF) и инструкционной тюнинг. Модели были протестированы на поведенческих задачах, связанных с саморегуляцией и согласованностью. Это позволило изучить, насколько личностная самосвертка влияет на поведение и насколько точно она может предсказывать реальное поведение. ## Результаты Из исследования выяснилось, что инструкционное рвение (RLHF) и инструкционная тюнинг стабилизируют выражение личности в LLM и усиливают корреляции между самосверткой и поведением. Однако самосвертка не точно предсказывает поведение, и наблюдаемые связи часто отличаются от тех, которые встречаются в человеческих данных. При этом персонализация эффективно управляет самосверткой в нужном направлении, но оказывает мало или непоследовательное влияние на самосвертку и поведение. Эти результаты показывают, что личность в LLMs может быть отображена на поверхности, но не всегда отражает реальное поведение. ## Значимость Полученные результаты имеют значимость в нескольких областях. Во-первых, они могут быть использованы для улучшения методов оценки индивидуальных личностных характеристик в LLMs, чтобы более точно предсказывать поведение. Во-вторых, они могут применяться в области разработки более согласованных и предсказуемых личностных моделе

Abstract

Personality traits have long been studied as predictors of human behavior. Recent advances in Large Language Models (LLMs) suggest similar patterns may emerge in artificial systems, with advanced LLMs displaying consistent behavioral tendencies resembling human traits like agreeableness and self-regulation. Understanding these patterns is crucial, yet prior work primarily relied on simplified self-reports and heuristic prompting, with little behavioral validation. In this study, we systematically characterize LLM personality across three dimensions: (1) the dynamic emergence and evolution of trait profiles throughout training stages; (2) the predictive validity of self-reported traits in behavioral tasks; and (3) the impact of targeted interventions, such as persona injection, on both self-reports and behavior. Our findings reveal that instructional alignment (e.g., RLHF, instruction tuning) significantly stabilizes trait expression and strengthens trait correlations in ways that mirror human data. However, these self-reported traits do not reliably predict behavior, and observed associations often diverge from human patterns. While persona injection successfully steers self-reports in the intended direction, it exerts little or inconsistent effect on actual behavior. By distinguishing surface-level trait expression from behavioral consistency, our findings challenge assumptions about LLM personality and underscore the need for deeper evaluation in alignment and interpretability.

Ссылки и действия

Связанные статьи

The Personality Illusion: Revealing Dissociation Between Self-Reports & Behavior...

## Контекст Область исследования связана с исследованием личностных характеристик и их влияния на поведение, обсуждаемых...

2025-09-06