Can synthetic data reproduce real-world findings in epidemiology? A replication study using tree-based generative AI
2508.14936v1
q-bio.QM, cs.AI, cs.LG, stat.AP, stat.ML
2025-08-23
Авторы:
Jan Kapar, Kathrin Günther, Lori Ann Vallis, Klaus Berger, Nadine Binder, Hermann Brenner, Stefanie Castell, Beate Fischer, Volker Harth, Bernd Holleczek, Timm Intemann, Till Ittermann, André Karch, Thomas Keil, Lilian Krist, Berit Lange, Michael F. Leitzmann, Katharina Nimptsch, Nadia Obi, Iris Pigeot, Tobias Pischon, Tamara Schikowski, Börge Schmidt, Carsten Oliver Schmidt, Anja M. Sedlmair, Justine Tanoey, Harm Wienbergen, Andreas Wienke, Claudia Wigmann, Marvin N. Wright
Резюме на русском
#### Контекст
Генерируемые с помощью искусственного интеллекта модели данных играют важную роль в решении практических проблем в области эпидемиологии, таких как защита конфиденциальности, увеличение размера выборки и уменьшение затрат на сбор данных. Несмотря на эти преимущества, многие нынешние методы генерации синтетических данных страдают недостатками качества, высокими затратами ресурсов вычислений и высокой сложностью для неэкспертных пользователей. Кроме того, существующие стратегии оценки синтетических данных не всегда напрямую отражают их статистическую полезность. Одним из ключевых вопросов является: могут ли синтетические данные верифицировать основные выводы эпидемиологического исследования? Мы предлагаем использовать алгоритм `adversarial random forests` (ARF), чтобы эффективно и просто генерировать синтетические данные в рамках эпидемиологических исследований.
#### Метод
Мы разработали `adversarial random forests` (ARF), алгоритм, который эффективно генерирует синтетические данные, используя решающие деревья. Этот подход характеризуется высокой скоростью и простотой использования. Мы применяем алгоритм ARF для синтеза данных эпидемиологических исследований, основываясь на данных из публикаций, рассматривающих такие показатели как антропометрия, сердечно-сосудистые заболевания, акселерометрия, одиночество, диабет и кровяное давление. Данные взяты из немецкого национального эпидемиологического исследования (NAKO), Bremen STEMI Registry U45 и Guelph Family Health Study. Для оценки качества синтеза мы сравнивали оригинальные выводы эпидемиологических исследований с результатами анализов, проведенных с использованием синтетических данных. Для дальнейшей оценки влияния того, как изменяется размер выборки и сложность данных, мы ограничивали данные только теми переменными, которые использовались в оригинальных эпидемиологических анализах.
#### Результаты
Мы провели кросс-валидацию синтетических данных с помощью различных эпидемиологических методов, включая описательные анализы, регрессионные модели и множественные кросс-валидации. В результате, результаты синтетических данных отражают оригинальные выводы всех первичных исследований, которые мы проверили. Даже при небольших размерах выборок и высокой сложности данных, результаты синтеза были стабильными и совпадали с результатами оригинальных исследований. Например, удалось воспроизвести результаты по изучению уровня кровяного давления, клинических показателей диабета и сердечно-сосудистых заболеваний. Мы также обнаружили, что сокращение размера выборки и предварительно разработанные перем
Abstract
Generative artificial intelligence for synthetic data generation holds
substantial potential to address practical challenges in epidemiology. However,
many current methods suffer from limited quality, high computational demands,
and complexity for non-experts. Furthermore, common evaluation strategies for
synthetic data often fail to directly reflect statistical utility. Against this
background, a critical underexplored question is whether synthetic data can
reliably reproduce key findings from epidemiological research. We propose the
use of adversarial random forests (ARF) as an efficient and convenient method
for synthesizing tabular epidemiological data. To evaluate its performance, we
replicated statistical analyses from six epidemiological publications and
compared original with synthetic results. These publications cover blood
pressure, anthropometry, myocardial infarction, accelerometry, loneliness, and
diabetes, based on data from the German National Cohort (NAKO
Gesundheitsstudie), the Bremen STEMI Registry U45 Study, and the Guelph Family
Health Study. Additionally, we assessed the impact of dimensionality and
variable complexity on synthesis quality by limiting datasets to variables
relevant for individual analyses, including necessary derivations. Across all
replicated original studies, results from multiple synthetic data replications
consistently aligned with original findings. Even for datasets with relatively
low sample size-to-dimensionality ratios, the replication outcomes closely
matched the original results across various descriptive and inferential
analyses. Reducing dimensionality and pre-deriving variables further enhanced
both quality and stability of the results.