The PIMMUR Principles: Ensuring Validity in Collective Behavior of LLM Societies

2509.18052v1 cs.CL, cs.CY 2025-09-24
Авторы:

Jiaxu Zhou, Jen-tse Huang, Xuhui Zhou, Man Ho Lam, Xintao Wang, Hao Zhu, Wenxuan Wang, Maarten Sap

Резюме на русском

## Контекст Large Language Models (LLMs) в последнее время востребованы в области социальной симуляции, где группы агентов предназначены для воспроизведения человеческих социальных поведений. Однако текущие исследования часто страдают от методологических недостатков, что снижает достоверность полученных выводов. Это проблема особенно актуальна в сфере "искуственных обществ" (AI societies), где важно получать надежные и повторяемые результаты. Исследователи отмечают, что многие работы не учитывают ключевые моменты, влияющие на валидность экспериментов. Это приводит к недостоверным выводам и снижению доверия к таким исследованиям. Наша работа стремится устранить эти проблемы и установить методические стандарты для эффективного использования LLMs в социальных симуляциях. ## Метод Для решения проблемы мы предлагаем **PIMMUR**, краткое обозначение для шести ключевых принципов, гарантирующих валидность экспериментов: **Profile**, **Interaction**, **Memory**, **Minimal-Control**, **Unawareness** и **Realism**. **Profile** указывает на необходимость разнообразия агентов, а не их однородности. **Interaction** подчеркивает важность наличия реальных взаимодействий между агентами, а не хаотичных или искусственно навязанных. **Memory** относится к необходимости сохранения и использованию истории взаимодействий. **Minimal-Control** означает необходимость ограничить влияние на выводы заранее заданных проверок. **Unawareness** включает в себя необходимость сохранения нео Fully Aware тестируемых агентов. **Realism** подразумевает использование реальных или реалистичных данных для проверки. Мы проверили эти принципы на практике, используя реалистичные эксперименты, что позволило выявить и устранить многие ошибки в текущих методах. ## Результаты Мы проверяли теоретические положения PIMMUR на реальных данных, проверяя 5 известных работ в области LLM-социальных симуляций. Наше расширенное использование PIMMUR показало, что многие социальные явления, которые ранее были отчётливо распознаны, в реальных условиях не проявлялись. Например, в одном из экспериментов, где LLM-агенты проходили искусственные тесты, доказано, что их поведение могло быть предсказано, если им были даны конкретные инструкции. Это нарушает принцип **Unawareness**. Таким образом, наши результаты показали, что некоторые социальные поведения, которые ранее считались достоверными, на самом деле не являются таковыми, обладая вместо этого высвобожденными характеристиками. ## Значимость Результаты наших исследований имеют значительное значение для области LLM-симуляций и социальных искусственных явлений. Методология PIMMUR даёт возможность улучшить достоверность и повторяемость исследований в этой области. Это открыва

Abstract

Large Language Models (LLMs) are increasingly used for social simulation, where populations of agents are expected to reproduce human-like collective behavior. However, we find that many recent studies adopt experimental designs that systematically undermine the validity of their claims. From a survey of over 40 papers, we identify six recurring methodological flaws: agents are often homogeneous (Profile), interactions are absent or artificially imposed (Interaction), memory is discarded (Memory), prompts tightly control outcomes (Minimal-Control), agents can infer the experimental hypothesis (Unawareness), and validation relies on simplified theoretical models rather than real-world data (Realism). For instance, GPT-4o and Qwen-3 correctly infer the underlying social experiment in 53.1% of cases when given instructions from prior work-violating the Unawareness principle. We formalize these six requirements as the PIMMUR principles and argue they are necessary conditions for credible LLM-based social simulation. To demonstrate their impact, we re-run five representative studies using a framework that enforces PIMMUR and find that the reported social phenomena frequently fail to emerge under more rigorous conditions. Our work establishes methodological standards for LLM-based multi-agent research and provides a foundation for more reliable and reproducible claims about "AI societies."

Ссылки и действия