A Mega-Study of Digital Twins Reveals Strengths, Weaknesses and Opportunities for Further Improvement
2509.19088v1
cs.CY, cs.AI, cs.HC, stat.AP
2025-09-25
Авторы:
Tiany Peng, George Gui, Daniel J. Merlau, Grace Jiarui Fan, Malek Ben Sliman, Melanie Brucks, Eric J. Johnson, Vicki Morwitz, Abdullah Althenayyan, Silvia Bellezza, Dante Donati, Hortense Fong, Elizabeth Friedman, Ariana Guevara, Mohamed Hussein, Kinshuk Jerath, Bruce Kogut, Kristen Lane, Hannah Li, Patryk Perkowski, Oded Netzer, Olivier Toubia
Резюме на русском
## Контекст
"Цифровые двойники" (digital twins) — это динамические модели, которые представляют индивидуальных пользователей или систем на основе расширенных данных о них. Они привлекают внимание в различных областях, включая маркетинг, управление и технологии, поскольку могут улучшить предсказания поведения и понимание индивидуальных предпочтений. Однако существуют вопросы относительно точности и широкого применения таких моделей. Наша исследовательская группа решила провести мега-исследование, чтобы изучить успехи, недостатки и возможности для улучшения данной технологии, а также оценить практическую значимость её применения в практике.
## Метод
Мы провели 19 пре-регистрированных экспериментов с участием широкого национального панельного обследования в США. Эксперименты включали в себя цифровые двойники, которые были построены на основе расширенных данных о пользователях, собранных ранее. Для каждого участника был разработан цифровой двойник на основе личных данных, после чего мы сравнили ответы цифровых двойников с ответами реальных участников на 164 различных заданий. Это позволило изучить точность, гибкость и ограничения цифровых двойников в предсказании индивидуальных ответов и характеристик.
## Результаты
Мы обнаружили, что цифровые двойники могут приблизительно предсказать отношения между участниками и их ответами, однако их точность остается низкой. Так, средняя корреляция между ответами цифровых двойников и реальных участников составила примерно 0,2. Мы также обнаружили, что ответы цифровых двойников менее разнообразны по сравнению с ответами реальных участников. Тем не менее, цифровые двойники удалось более точно предсказать ответы индивидуальных участников в зависимости от их культурных, экономических и политических характеристик.
## Значимость
Наши результаты показывают, что цифровые двойники могут быть полезны в ситуациях, когда требуется предсказать отношения и различия между участниками, а не точно предсказать ответы классических задач. Они могут быть применены в маркетинге, личных финансах и других областях для оценки групповых различий и тенденций. Однако цифровые двойники сейчас не могут точно предсказывать ответы отдельных участников, что ограничивает их применение в ситуациях, требующих высокой точности.
## Выводы
Мы приходим к выводу, что цифровые двойники — это мощный инструмент для понимания индивидуальных различий и тенденций, но они сейчас не могут заменить реальных участников в исследованиях. Наше исследование подчеркивает необходимость дополнительных исследований и оптимизации цифровых двойников, чтоб
Abstract
Do "digital twins" capture individual responses in surveys and experiments?
We run 19 pre-registered studies on a national U.S. panel and their LLM-powered
digital twins (constructed based on previously-collected extensive
individual-level data) and compare twin and human answers across 164 outcomes.
The correlation between twin and human answers is modest (approximately 0.2 on
average) and twin responses are less variable than human responses. While
constructing digital twins based on rich individual-level data improves our
ability to capture heterogeneity across participants and predict relative
differences between them, it does not substantially improve our ability to
predict the exact answers given by specific participants or enhance predictions
of population means. Twin performance varies by domain and is higher among more
educated, higher-income, and ideologically moderate participants. These results
suggest current digital twins can capture some degree of relative differences
but are unreliable for individual-level predictions and sample mean and
variance estimation, underscoring the need for careful validation before use.
Our data and code are publicly available for researchers and practitioners
interested in optimizing digital twin pipelines.