Population-Aligned Persona Generation for LLM-based Social Simulation

2509.10127v1 cs.CL, cs.AI, cs.LG 2025-09-16
Авторы:

Zhengyu Hu, Zheyuan Xiao, Max Xiong, Yuxuan Lei, Tianfu Wang, Jianxun Lian, Kaize Ding, Ziang Xiao, Nicholas Jing Yuan, Xing Xie

Резюме на русском

## Контекст Повышение мощности и точности бо LLM (large language models) позволило создавать более реалистичные модели социальных интерфейсов. Однако, возникла проблема с оптимальным созданием персонажей, которые были бы лояльными к диапазону реальных личностей в реальном мире. Многие работы по LLM-based social simulation (специализированным моделям социальных симуляций) сфокусированы на создании рамков и сред, оставляя в стороне проблему генерации персонажей, которые могут быть упорядочены с точки зрения психометрических характеристик, таких как Big Five. Большинство существующих теорий и моделей либо не учитывают низкую представительность персонажей, либо не могут разделить на определенные группы. В этой работе мы предлагаем подход, ориентированный на выравнивание точности и глобальной эмпирической структуры, чтобы повысить вывод персонажей, более лояльных к данным реальных личностей. ## Метод Мы предлагаем фреймворк, который использует LLMs для генерации авторских персонажей из длительных данных социальных сетей. Для отбора высококачественных профилей мы применяем жесткий фильтр с использованием метрик по контексту, точности и грамматической целостности профиля. Далее, мы структурируем и выравниваем эти профили с помощью импортного выбора, чтобы они соответствовали популяционным трендам, основываясь на психометрических системах (например, Big Five). Для специфичных задач мы включаем модуль, который адаптирует эти профили для конкретных подгрупп, что позволяет обеспечить гибкость в социальных симуляциях. ## Результаты Мы проверили наш подход на нескольких датасетах социальных данных, включая данные социальных сетей и психометрические тесты. Его работа позволила достичь статистически значимого снижения биаса в профилях, имеющих доля в реальной популяции. Мы также оценили точность моделей в социальных симуляциях, включая задачи, такие как моделирование поведения и симуляция групповых интеракций. Результаты показали, что наш подход существенно улучшил глобальную точность и позволяет гибко контролировать симуляции под различные контексты. ## Значимость Наш подход может быть применен в различных областях, таких как гуманитарные исследования, политическая наука и развитие интеллектуальных систем. Он позволяет улучшить точность и реалистичность социальных симуляций, облегчая тестирование теорий и разработку политических и социальных решений. Благодаря гибкости и детализации, он также помогает решать проблему представительности в социальных моделях. ## Выводы Мы предложили новую методику для создания персонажей, более лояльных к данным реальных личност

Abstract

Recent advances in large language models (LLMs) have enabled human-like social simulations at unprecedented scale and fidelity, offering new opportunities for computational social science. A key challenge, however, is the construction of persona sets that authentically represent the diversity and distribution of real-world populations. Most existing LLM-based social simulation studies focus primarily on designing agentic frameworks and simulation environments, often overlooking the complexities of persona generation and the potential biases introduced by unrepresentative persona sets. In this paper, we propose a systematic framework for synthesizing high-quality, population-aligned persona sets for LLM-driven social simulation. Our approach begins by leveraging LLMs to generate narrative personas from long-term social media data, followed by rigorous quality assessment to filter out low-fidelity profiles. We then apply importance sampling to achieve global alignment with reference psychometric distributions, such as the Big Five personality traits. To address the needs of specific simulation contexts, we further introduce a task-specific module that adapts the globally aligned persona set to targeted subpopulations. Extensive experiments demonstrate that our method significantly reduces population-level bias and enables accurate, flexible social simulation for a wide range of research and policy applications.

Ссылки и действия