Statistical Inference Leveraging Synthetic Data with Distribution-Free Guarantees

2509.20345v1 stat.ME, cs.LG, stat.ML 2025-09-26
Авторы:

Meshi Bashari, Yonghoon Lee, Roy Maor Lotan, Edgar Dobriban, Yaniv Romano

Резюме на русском

## Контекст В последние годы синтетические данные, полученные с помощью развитых ИИ-моделей или дополнительно сбором в связанных задачах, приобрели важное место в области статистического анализа. Однако использование таких данных для статистического вывода связано с рядом проблем. Например, синтетические данные могут иметь недостатки в качестве или несоответствие к реальным данным, что приводит к негативному влиянию на результаты. Для решения этих проблем требуется гибкий подход, который мог бы объединить синтетические и реальные данные, обеспечивая безопасное и эффективное использование информации. Такой подход является необходимым для улучшения точности и надежности статистических выводов. ## Метод Мы предлагаем GEneral Synthetic-Powered Inference (GESPI) — рамочный подход, который может обернуть в себя любую статистическую процедуру. GESPI адаптивно использует синтетические данные для повышения эффективности выборки, но при этом незаметно переключается на стандартный метод, используя только реальные данные, если синтетические данные имеют низкое качество. Основной деталью GESPI является то, что он не требует предположений о распределении данных и обеспечивает ограничение ошибки без изменения базового метода. Также GESPI интегрируется с такими методами, как conformal prediction и multiple testing, без изменения их основных алгоритмов. Это делает GESPI легко применяемым в различных статистических задачах. ## Результаты Мы проверили GESPI на нескольких сложных задачах, включая задачу по прогнозированию структур белков с помощью AlphaFold и сравнение бо LARGE REASONING моделей при решении математических задач. Мы использовали как высококачественные, так и низкокачественные синтетические данные, чтобы оценить эффективность различных статистических методов в разных условиях. Эксперименты показали, что GESPI повышает точность и эффективность выборки, оставаясь в пределах заданного пользователем ограничения на ошибки. Наши результаты показали, что GESPI работает без каких-либо предположений о распределении данных, что делает его универсальным для разных задач. ## Значимость GESPI имеет широкое применение в статистическом анализе и моделировании. Он позволяет избегать недостатков, связанных с использованием низкокачественных синтетических данных, а также повышает степень надежности результатов. Этот подход может быть применен в широком круге областей, включая биоинформатику, машинное обучение, а также в решение задач, где требуется точный статистический вывод. Наше решение также открывает возможности для будущих исследований в области статистических методов, которые могут включать расширенные техники повышения эффективности вы

Abstract

The rapid proliferation of high-quality synthetic data -- generated by advanced AI models or collected as auxiliary data from related tasks -- presents both opportunities and challenges for statistical inference. This paper introduces a GEneral Synthetic-Powered Inference (GESPI) framework that wraps around any statistical inference procedure to safely enhance sample efficiency by combining synthetic and real data. Our framework leverages high-quality synthetic data to boost statistical power, yet adaptively defaults to the standard inference method using only real data when synthetic data is of low quality. The error of our method remains below a user-specified bound without any distributional assumptions on the synthetic data, and decreases as the quality of the synthetic data improves. This flexibility enables seamless integration with conformal prediction, risk control, hypothesis testing, and multiple testing procedures, all without modifying the base inference method. We demonstrate the benefits of our method on challenging tasks with limited labeled data, including AlphaFold protein structure prediction, and comparing large reasoning models on complex math problems.

Ссылки и действия