IROTE: Human-like Traits Elicitation of Large Language Model via In-Context Self-Reflective Optimization
2508.08719v1
cs.CL, cs.AI, cs.CY
2025-08-14
Авторы:
Yuzhuo Bai, Shitong Duan, Muhua Huang, Jing Yao, Zhenghao Liu, Peng Zhang, Tun Lu, Xiaoyuan Yi, Maosong Sun, Xing Xie
Резюме на русском
## Контекст
Large Language Models (LLMs), обученные разнообразным текстовым корпусам, могут повторять человеческие характеристики и стили подсказками. Это возможность используется в широком кругу приложений, таких как персонализация LLMs и социальные симуляции. Однако существующие методы страдают от проблемы поверхностного подражания: LLMs могут только воспроизводить внешние стилистические особенности без поглубжей интеграции желаемых черт. Это приводит к нестабильности и несогласованности в имитации желаемых характеристик. Мотивируясь этим, мы предлагаем IROTE, метод для эффективного и надежного пробуждения человеческих характеристик в LLMs.
## Метод
IROTE основывается на психологических теориях, связывающих характеристики с автопознанием и саморефлексией. Мы разработали механизм, который автоматически генерирует и оптимизирует текст саморефлексии внутри промптов. Этот текст описывает испытания и взгляды самого языкового модели, создавая яркую и конкретную картину желаемой черты. Оптимизация выполняется через информационно-теоретическую функцию максимизации, увеличивающую связь между характеристикой и текстом модели, при этом уменьшая шум и ненужную информацию. Этот процесс не требует оптимизации весов модели и дает стабильную и переносимую ролевую игру.
## Результаты
Мы провести эксперименты на трех разных системах человеческих черт, проверяя целесообразность IROTE на различных задачах. Результаты показывают, что один текст саморефлексии, сгенерированный IROTE, позволяет LLMs оживить желаемую черту в различных сценариях. Наши результаты постоянно превосходят сильные текущие базы, демонстрируя более глубокие и устойчивые эффекты. Это доказывает значительное преимущество IROTE в области поддержки человеческих характеристик.
## Значимость
Метод IROTE может применяться в сферах, где требуется поддержка человеческих черт, такие как социальные симуляции, персонализация технологий и даже создание имитационных систем. Он обеспечивает более стабильные и реалистичные характеристики, чем существующие методы. Будущие работы будут направлены на расширение метода на новые типы черт и улучшение его интеграции с другими технологиями.
## Выводы
Итоги нашего исследования показывают, что IROTE является прорывом в области стабильного и переносимого пробуждения человеческих черт в LLMs. Наш метод позволяет получить более внутреннюю и консистентную имитацию человеческих характеристик, что открывает пути для
Abstract
Trained on various human-authored corpora, Large Language Models (LLMs) have
demonstrated a certain capability of reflecting specific human-like traits
(e.g., personality or values) by prompting, benefiting applications like
personalized LLMs and social simulations. However, existing methods suffer from
the superficial elicitation problem: LLMs can only be steered to mimic shallow
and unstable stylistic patterns, failing to embody the desired traits precisely
and consistently across diverse tasks like humans. To address this challenge,
we propose IROTE, a novel in-context method for stable and transferable trait
elicitation. Drawing on psychological theories suggesting that traits are
formed through identity-related reflection, our method automatically generates
and optimizes a textual self-reflection within prompts, which comprises
self-perceived experience, to stimulate LLMs' trait-driven behavior. The
optimization is performed by iteratively maximizing an information-theoretic
objective that enhances the connections between LLMs' behavior and the target
trait, while reducing noisy redundancy in reflection without any fine-tuning,
leading to evocative and compact trait reflection. Extensive experiments across
three human trait systems manifest that one single IROTE-generated
self-reflection can induce LLMs' stable impersonation of the target trait
across diverse downstream tasks beyond simple questionnaire answering,
consistently outperforming existing strong baselines.
Ссылки и действия
Дополнительные ресурсы: