IROTE: Human-like Traits Elicitation of Large Language Model via In-Context Self-Reflective Optimization

2508.08719v1 cs.CL, cs.AI, cs.CY 2025-08-14
Авторы:

Yuzhuo Bai, Shitong Duan, Muhua Huang, Jing Yao, Zhenghao Liu, Peng Zhang, Tun Lu, Xiaoyuan Yi, Maosong Sun, Xing Xie

Резюме на русском

## Контекст Large Language Models (LLMs), обученные разнообразным текстовым корпусам, могут повторять человеческие характеристики и стили подсказками. Это возможность используется в широком кругу приложений, таких как персонализация LLMs и социальные симуляции. Однако существующие методы страдают от проблемы поверхностного подражания: LLMs могут только воспроизводить внешние стилистические особенности без поглубжей интеграции желаемых черт. Это приводит к нестабильности и несогласованности в имитации желаемых характеристик. Мотивируясь этим, мы предлагаем IROTE, метод для эффективного и надежного пробуждения человеческих характеристик в LLMs. ## Метод IROTE основывается на психологических теориях, связывающих характеристики с автопознанием и саморефлексией. Мы разработали механизм, который автоматически генерирует и оптимизирует текст саморефлексии внутри промптов. Этот текст описывает испытания и взгляды самого языкового модели, создавая яркую и конкретную картину желаемой черты. Оптимизация выполняется через информационно-теоретическую функцию максимизации, увеличивающую связь между характеристикой и текстом модели, при этом уменьшая шум и ненужную информацию. Этот процесс не требует оптимизации весов модели и дает стабильную и переносимую ролевую игру. ## Результаты Мы провести эксперименты на трех разных системах человеческих черт, проверяя целесообразность IROTE на различных задачах. Результаты показывают, что один текст саморефлексии, сгенерированный IROTE, позволяет LLMs оживить желаемую черту в различных сценариях. Наши результаты постоянно превосходят сильные текущие базы, демонстрируя более глубокие и устойчивые эффекты. Это доказывает значительное преимущество IROTE в области поддержки человеческих характеристик. ## Значимость Метод IROTE может применяться в сферах, где требуется поддержка человеческих черт, такие как социальные симуляции, персонализация технологий и даже создание имитационных систем. Он обеспечивает более стабильные и реалистичные характеристики, чем существующие методы. Будущие работы будут направлены на расширение метода на новые типы черт и улучшение его интеграции с другими технологиями. ## Выводы Итоги нашего исследования показывают, что IROTE является прорывом в области стабильного и переносимого пробуждения человеческих черт в LLMs. Наш метод позволяет получить более внутреннюю и консистентную имитацию человеческих характеристик, что открывает пути для

Abstract

Trained on various human-authored corpora, Large Language Models (LLMs) have demonstrated a certain capability of reflecting specific human-like traits (e.g., personality or values) by prompting, benefiting applications like personalized LLMs and social simulations. However, existing methods suffer from the superficial elicitation problem: LLMs can only be steered to mimic shallow and unstable stylistic patterns, failing to embody the desired traits precisely and consistently across diverse tasks like humans. To address this challenge, we propose IROTE, a novel in-context method for stable and transferable trait elicitation. Drawing on psychological theories suggesting that traits are formed through identity-related reflection, our method automatically generates and optimizes a textual self-reflection within prompts, which comprises self-perceived experience, to stimulate LLMs' trait-driven behavior. The optimization is performed by iteratively maximizing an information-theoretic objective that enhances the connections between LLMs' behavior and the target trait, while reducing noisy redundancy in reflection without any fine-tuning, leading to evocative and compact trait reflection. Extensive experiments across three human trait systems manifest that one single IROTE-generated self-reflection can induce LLMs' stable impersonation of the target trait across diverse downstream tasks beyond simple questionnaire answering, consistently outperforming existing strong baselines.

Ссылки и действия