The Personality Illusion: Revealing Dissociation Between Self-Reports & Behavior in LLMs

2509.03730v1 cs.AI, cs.CL, cs.CY, cs.LG, stat.ML 2025-09-06

Авторы:

Pengrui Han, Rafal Kocielnik, Peiyang Song, Ramit Debnath, Dean Mobbs, Anima Anandkumar, R. Michael Alvarez

Резюме на русском

## Контекст Область исследования связана с исследованием личностных характеристик и их влияния на поведение, обсуждаемых как в человеческих, так и в искусственных системах. Несмотря на долгое время исследования личности, существуют проблемы в том, как эффективно измерить и предсказать поведение на основе личностных характеристик. Одной из главных причин этому является несоответствие между самооценками личности и фактическим поведением. Это проблема дополнительно усиливается при изучении искусственных систем, таких как Большие Лингвистические Модели (LLM), которые могут отображать похожие личностные тренды, но их поведение может отличаться от людей. Это приводит к необходимости понять, насколько характеристики в LLM зеркалируют реальность и на сколько они влияют на поведение. ## Метод Для исследования LLM личности, авторы применяют систематический подход, состоящий из трех основных измерений. Во-первых, они выясняют, как личностные характеристики возникают и меняются во время обучения модели. Во-вторых, оценивается, насколько самооценка личности соответствует фактическим поведенческим задачам. И, наконец, в третьих, исследуется то, как целенаправленные интервенции, такие как "инъекция личности", влияют на оба аспекта - самооценку и поведение. Была использована методология тренировки модели с использованием различных вариантов инструкций и стимулов, чтобы выявить сильные и слабые стороны взаимосвязи личности и поведения. ## Результаты Исследование показало, что инструкционное выравнивание (например, Reinforcement Learning from Human Feedback, инструкционное тюнинг) стабилизирует выражение личностных черт и укрепляет их корреляции. Однако, несмотря на то, что самооценка личности может быть успешно "вдохновлена" целевой инъекцией, она часто не сильно влияет на фактическое поведение модели. И, что может быть еще более важно, полученные результаты показали, что различные личностные характеристики могут отличаться по вероятности их появления в LLM, но это не всегда соотносится с поведенческими задачами, в которых модель принимает участие. Это означает, что, несмотря на то, что LLM может выражать личностные характеристики, она часто не демонстрирует соответствующего поведения. ## Значимость Набор полученных результатов имеет значительное значение для широкого спектра областей. Во-первых, полученные результаты могут быть применены в разработке более человечных интерфейсов, где LLM могут отображать личностную сторону, но с учетом реального поведения. Во-вторых, эти находки могут быть полезны в области проверки

Abstract

Personality traits have long been studied as predictors of human behavior.Recent advances in Large Language Models (LLMs) suggest similar patterns may emerge in artificial systems, with advanced LLMs displaying consistent behavioral tendencies resembling human traits like agreeableness and self-regulation. Understanding these patterns is crucial, yet prior work primarily relied on simplified self-reports and heuristic prompting, with little behavioral validation. In this study, we systematically characterize LLM personality across three dimensions: (1) the dynamic emergence and evolution of trait profiles throughout training stages; (2) the predictive validity of self-reported traits in behavioral tasks; and (3) the impact of targeted interventions, such as persona injection, on both self-reports and behavior. Our findings reveal that instructional alignment (e.g., RLHF, instruction tuning) significantly stabilizes trait expression and strengthens trait correlations in ways that mirror human data. However, these self-reported traits do not reliably predict behavior, and observed associations often diverge from human patterns. While persona injection successfully steers self-reports in the intended direction, it exerts little or inconsistent effect on actual behavior. By distinguishing surface-level trait expression from behavioral consistency, our findings challenge assumptions about LLM personality and underscore the need for deeper evaluation in alignment and interpretability.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

The Personality Illusion: Revealing Dissociation Between Self-Reports & Behavior in LLMs

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

The Personality Illusion: Revealing Dissociation Between Self-Reports & Behavior...

Навигация