Population-Aligned Persona Generation for LLM-based Social Simulation
2509.10127v1
cs.CL, cs.AI, cs.LG
2025-09-16
Авторы:
Zhengyu Hu, Zheyuan Xiao, Max Xiong, Yuxuan Lei, Tianfu Wang, Jianxun Lian, Kaize Ding, Ziang Xiao, Nicholas Jing Yuan, Xing Xie
Резюме на русском
## Контекст
Повышение мощности и точности бо LLM (large language models) позволило создавать более реалистичные модели социальных интерфейсов. Однако, возникла проблема с оптимальным созданием персонажей, которые были бы лояльными к диапазону реальных личностей в реальном мире. Многие работы по LLM-based social simulation (специализированным моделям социальных симуляций) сфокусированы на создании рамков и сред, оставляя в стороне проблему генерации персонажей, которые могут быть упорядочены с точки зрения психометрических характеристик, таких как Big Five. Большинство существующих теорий и моделей либо не учитывают низкую представительность персонажей, либо не могут разделить на определенные группы. В этой работе мы предлагаем подход, ориентированный на выравнивание точности и глобальной эмпирической структуры, чтобы повысить вывод персонажей, более лояльных к данным реальных личностей.
## Метод
Мы предлагаем фреймворк, который использует LLMs для генерации авторских персонажей из длительных данных социальных сетей. Для отбора высококачественных профилей мы применяем жесткий фильтр с использованием метрик по контексту, точности и грамматической целостности профиля. Далее, мы структурируем и выравниваем эти профили с помощью импортного выбора, чтобы они соответствовали популяционным трендам, основываясь на психометрических системах (например, Big Five). Для специфичных задач мы включаем модуль, который адаптирует эти профили для конкретных подгрупп, что позволяет обеспечить гибкость в социальных симуляциях.
## Результаты
Мы проверили наш подход на нескольких датасетах социальных данных, включая данные социальных сетей и психометрические тесты. Его работа позволила достичь статистически значимого снижения биаса в профилях, имеющих доля в реальной популяции. Мы также оценили точность моделей в социальных симуляциях, включая задачи, такие как моделирование поведения и симуляция групповых интеракций. Результаты показали, что наш подход существенно улучшил глобальную точность и позволяет гибко контролировать симуляции под различные контексты.
## Значимость
Наш подход может быть применен в различных областях, таких как гуманитарные исследования, политическая наука и развитие интеллектуальных систем. Он позволяет улучшить точность и реалистичность социальных симуляций, облегчая тестирование теорий и разработку политических и социальных решений. Благодаря гибкости и детализации, он также помогает решать проблему представительности в социальных моделях.
## Выводы
Мы предложили новую методику для создания персонажей, более лояльных к данным реальных личност
Abstract
Recent advances in large language models (LLMs) have enabled human-like
social simulations at unprecedented scale and fidelity, offering new
opportunities for computational social science. A key challenge, however, is
the construction of persona sets that authentically represent the diversity and
distribution of real-world populations. Most existing LLM-based social
simulation studies focus primarily on designing agentic frameworks and
simulation environments, often overlooking the complexities of persona
generation and the potential biases introduced by unrepresentative persona
sets. In this paper, we propose a systematic framework for synthesizing
high-quality, population-aligned persona sets for LLM-driven social simulation.
Our approach begins by leveraging LLMs to generate narrative personas from
long-term social media data, followed by rigorous quality assessment to filter
out low-fidelity profiles. We then apply importance sampling to achieve global
alignment with reference psychometric distributions, such as the Big Five
personality traits. To address the needs of specific simulation contexts, we
further introduce a task-specific module that adapts the globally aligned
persona set to targeted subpopulations. Extensive experiments demonstrate that
our method significantly reduces population-level bias and enables accurate,
flexible social simulation for a wide range of research and policy
applications.
Ссылки и действия
Дополнительные ресурсы: