Using Imperfect Synthetic Data in Downstream Inference Tasks
2508.06635v1
cs.LG, cs.AI, stat.ML
2025-08-13
Авторы:
Yewon Byun, Shantanu Gupta, Zachary C. Lipton, Rachel Leah Childers, Bryan Wilder
Резюме на русском
## Контекст
Область исследования, связанная с использованием имеющихся данных в крупных моделях языка, набирает популярность в современных научных исследованиях. В частности, в рамках компьютерных и социальных наук, где данные часто ограничены, модели языка используются для генерирования данных и поддержки решения задач. Однако, генерируемые моделями данные могут иметь ошибки, что создает сложности для их использования в реальных приложениях. Более того, необходимо разрабатывать новые методы, которые позволят объединять имеющиеся данные с модельной синтетической информацией для получения точных выводов. Этот рабочей группой предлагается разработать универсальный метод, который позволит правильно объединять искусственные данные с реальными, несмотря на их неточности и различия.
## Метод
Методология, разработанная в работе, основывается на новом подходе к решению задач учёта влияния искусственных данных на реальные. Основной инструмент, который используется в работе, является метод моментов, который позволяет объединить в единый процесс данные и модели. Разработчики предлагают также новую модель, которая не требует внесения гиперпараметров на этапе решения. Эта модель обладает теоретическими доказательствами, которые подтверждают, что она является эффективной для задач регрессии и других сложных моделей. Более того, авторы предлагают стратегию для оценки того, насколько модельная информация влияет на реальные данные и на итоговые выводы.
## Результаты
Авторы проводили эксперименты на реальных данных, полученных в рамках различных социальных исследований. Использовались различные модели и методы, включая модели генерации текста и текстовой регрессии. Результаты показали, что комбинация модельной информации с реальными данными позволяет повысить точность регрессионных моделей и других моделей, которые используются в социальных исследованиях. Также были сравнены различные стратегии объединения данных и показано, что предлагаемый подход даёт значительный прирост в качестве решения задач.
## Значимость
Результаты работы могут иметь значительное значение для различных областей, в том числе для компьютерных наук, социальных исследований и даже для бизнеса. Использование модельной информации, созданной технологиями генерации текста, может повысить точность выводов в ситуациях, когда реальные данные отсутствуют или ограничены. Более того, предлагаемый подход может повысить уровень достоверности результатов в области регрессии и других моделей. Этот подход также может быть применён для решения других задач, где необходимо интегрировать искусственные данные с реальными.
## Вывод
Abstract
Predictions and generations from large language models are increasingly being
explored as an aid to computational social science and human subject research
in limited data regimes. While previous technical work has explored the
potential to use model-predicted labels for unlabeled data in a principled
manner, there is increasing interest in using large language models to generate
entirely new synthetic samples (also termed as synthetic simulations), such as
in responses to surveys. However, it is not immediately clear by what means
practitioners can combine such data with real data and yet produce
statistically valid conclusions upon them. In this work, we introduce a new
estimator based on generalized method of moments, providing a
hyperparameter-free solution with strong theoretical guarantees to address the
challenge at hand. Surprisingly, we find that interactions between the moment
residuals of synthetic data and those of real data can improve estimates of the
target parameter. We empirically validate the finite-sample performance of our
estimator across different regression tasks in computational social science
applications, demonstrating large empirical gains.
Ссылки и действия
Дополнительные ресурсы: