Persistent Instability in LLM's Personality Measurements: Effects of Scale, Reasoning, and Conversation History

2508.04826v1 cs.CL, cs.AI 2025-08-09

Авторы:

Tommaso Tosato, Saskia Helbling, Yorguin-Jose Mantilla-Ramos, Mahmood Hegazy, Alberto Tosato, David John Lemay, Irina Rish, Guillaume Dumas

Резюме на русском

## КОНТЕКСТ И ПРОБЛЕМАТИКА Современное развитие больших языковых моделей (LLM) сталкивается с фундаментальной проблемой предсказуемости и стабильности поведения систем искусственного интеллекта. В контексте стремительного внедрения LLM в критически важные области - от медицинской диагностики до финансового консультирования и образовательных платформ - последовательность поведения становится не просто технической характеристикой, а фактором общественной безопасности. Однако понимание "личностных" характеристик этих моделей остаётся крайне ограниченным, что создаёт риск непредсказуемых последствий при масштабном развертывании. Существующие подходы к оценке поведения LLM фокусируются преимущественно на задачах классификации или генерации текста, упуская фундаментальный аспект стабильности личностных проявлений. Традиционные психологические инструменты, такие как Big Five Inventory (BFI-44) и Short Dark Triad (SD3), были разработаны для измерения стабильных черт личности у человека, но их применимость к искусственным системам вызывает серьёзные сомнения. Более того, предполагается, что модели большего масштаба должны демонстрировать более стабильное поведение благодаря большей "объёмности" знаний, однако эмпирическое подтверждение этой гипотезы отсутствует. Критической проблемой является отсутствие систематической методологии для оценки стабильности личностных характеристик LLM в различных условиях. Исследователи не располагают данными о том, насколько мелкие изменения в формулировках запросов, порядке вопросов или контексте взаимодействия влияют на измеряемые "личностные" характеристики моделей. Это создаёт потенциальный риск для разработчиков и пользователей, которые могут полагаться на кажущуюся стабильность поведения системы, не осознавая её чувствительности к тривиальным изменениям входных данных. ## ПРЕДЛОЖЕННЫЙ МЕТОД Авторы разработали комплексную оценочную рамку PERSIST (PERsonality Stability in Synthetic Text), которая представляет собой многомерный аналитический комплекс для систематического изучения стабильности личностных измерений в LLM. Рамка охватывает более 25 открытых моделей с количеством параметров от 1 до 671 миллиарда, что позволяет провести масштабный анализ зависимости стабильности от размера модели. В рамках исследования было собрано более 500,000 ответов моделей, что обеспечивает статистическую значимость полученных результатов. Методология включает два типа инструментов для измерения личностных характеристик: традиционные психологические шкалы (BFI-44 для оценки "Большой пятёрки" и SD3 для измерения "тёмной триады" личности) и специально адаптированные для LLM инструменты. Это двойное применение позволило исследовать гипотезу о том, что нестабильность может быть вызвана несоответствием человекоцентричных инструментов особенностям искусственных систем. Систематическое варьирование параметров включало четыре ключевых фактора: порядок вопросов, парафразирование формулировок, задание конкретных персон модели, и режимы рассуждений (включая chain-of-thought подход). Каждый фактор тестировался в изоляции и в комбинациях для выявления синергетических эффектов. Особое внимание уделялось влиянию истории предыдущих взаимодействий на текущие измерения, что имитирует реальные сценарии использования, где модели работают в контексте продолжительных диалогов. Аналитический аппарат включал статистические методы оценки вариативности ответов, корреляционный анализ между различными условиями тестирования, и разработку метрик для количественной оценки стабильности. Для каждой модели и условия рассчитывались стандартные отклонения показателей личности, коэффициенты корреляции между повторными измерениями, и индекс чувствительности к изменениям входных данных. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Результаты экспериментов продемонстрировали удивительно высокий уровень вариативности в личностных измерениях даже у самых крупных моделей. Модели с 400+ миллиардами параметров показывали стандартное отклонение показателей личности более 0.4 по шкале от 0 до 1, что указывает на существенную нестабильность. Это опровергает распространённое представление о том, что увеличение размера модели автоматически приводит к более предсказу

Abstract

Large language models require consistent behavioral patterns for safe deployment, yet their personality-like traits remain poorly understood. We present PERSIST (PERsonality Stability in Synthetic Text), a comprehensive evaluation framework testing 25+ open-source models (1B-671B parameters) across 500,000+ responses. Using traditional (BFI-44, SD3) and novel LLM-adapted personality instruments, we systematically vary question order, paraphrasing, personas, and reasoning modes. Our findings challenge fundamental deployment assumptions: (1) Even 400B+ models exhibit substantial response variability (SD > 0.4); (2) Minor prompt reordering alone shifts personality measurements by up to 20%; (3) Interventions expected to stabilize behavior, such as chain-of-thought reasoning, detailed personas instruction, inclusion of conversation history, can paradoxically increase variability; (4) LLM-adapted instruments show equal instability to human-centric versions, confirming architectural rather than translational limitations. This persistent instability across scales and mitigation strategies suggests current LLMs lack the foundations for genuine behavioral consistency. For safety-critical applications requiring predictable behavior, these findings indicate that personality-based alignment strategies may be fundamentally inadequate.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Persistent Instability in LLM's Personality Measurements: Effects of Scale, Reasoning, and Conversation History

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

UW-BioNLP at ChemoTimelines 2025: Thinking, Fine-Tuning, and Dictionary-Enhanced...

AdmTree: Compressing Lengthy Context with Adaptive Semantic Trees

SignRoundV2: Closing the Performance Gap in Extremely Low-Bit Post-Training Quan...

Mitigating Catastrophic Forgetting in Target Language Adaptation of LLMs via Sou...

SEAL: Self-Evolving Agentic Learning for Conversational Question Answering over ...

Навигация