The threat of analytic flexibility in using large language models to simulate human data: A call to attention

2509.13397v2 cs.CY, cs.AI 2025-09-19

Авторы:

Jamie Cummins

Резюме на русском

## Контекст В последние годы широко развиваются исследования, применяющие большие языковые модели для создания "силиконовых выборок" — синтетических данных, которые должны заменить данные, полученные от реальных людей в исследованиях. Этот подход может значительно изменить область исследований, опирающихся на реальных участников. Тем не менее, возникают сложности, связанные с выбором методов и параметров, необходимых для построения таких выборок. Хотя эти решения могут быть обоснованы, их влияние на качество выборок пока не достаточно хорошо понято. Целью данного исследования является изучение этих вопросов и выявления потенциальных рисков, связанных с гибкостью аналитических решений. ## Метод Исследование основывается на экспериментальном подходе, в рамках которого были проведены 252 конфигурации силиконовых выборок. Автор изучил три ключевых аспекта: (i) ранжирование ответов участников, (ii) распределение ответов и (iii) корреляции между скалярными величинами. Для каждой конфигурации были измерены точность и качество результатов. Это позволило выявить относительные сильные и слабые стороны каждой конфигурации. Исследования проводились на данных, полученных в рамках реальных исследований, чтобы эмпирически оценить качество силиконовых выборок. ## Результаты Результаты показали, что некоторые конфигурации показали высокую точность в одном аспекте, но сильно худят в других. Например, некоторые конфигурации хорошо воспроизводили ранжирование ответов, но оказались неточными в моделировании распределения ответов. Более того, ни одна конфигурация не показала лучшую общую точность на всех трёх параметрах одновременно. Это указывает на то, что нет оптимального решения, которое может гарантировать хорошую точность во всех аспектах. Эти результаты подтверждают риск аналитической гибкости при использовании больших языковых моделей для создания выборок. ## Значимость Результаты имеют важное значение для области исследований, основанных на силиконовых выборках. Они указывают на необходимость внимательного подхода к выбору параметров и аналитических решений. Недостаточное внимание к этим вопросам может привести к существенным ошибкам в исследованиях. Это важно для областей, таких как социальные и поведенческие науки, где качество данных является критическим. Более широко, это может способствовать улучшению методов исследований, основанных на синтетических данных. ## Выводы Исследование выделяет значительный риск, связанный с аналитической гибкостью при создании "силиконовых выборок". Основные выводы: (i) нет од

Abstract

Social scientists are now using large language models to create "silicon samples" - synthetic datasets intended to stand in for human respondents, aimed at revolutionising human subjects research. However, there are many analytic choices which must be made to produce these samples. Though many of these choices are defensible, their impact on sample quality is poorly understood. I map out these analytic choices and demonstrate how a very small number of decisions can dramatically change the correspondence between silicon samples and human data. Configurations (N = 252) varied substantially in their capacity to estimate (i) rank ordering of participants, (ii) response distributions, and (iii) between-scale correlations. Most critically, configurations were not consistent in quality: those that performed well on one dimension often performed poorly on another, implying that there is no "one-size-fits-all" configuration that optimises the accuracy of these samples. I call for greater attention to the threat of analytic flexibility in using silicon samples.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

The threat of analytic flexibility in using large language models to simulate human data: A call to attention

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Humanity in the Age of AI: Reassessing 2025's Existential-Risk Narratives

When AI Takes the Couch: Psychometric Jailbreaks Reveal Internal Conflict in Fro...

Artificial Intelligence / Human Intelligence: Who Controls Whom?

First, do NOHARM: towards clinically safe large language models

AI-Driven Document Redaction in UK Public Authorities: Implementation Gaps, Regu...

Навигация