Using Imperfect Synthetic Data in Downstream Inference Tasks

2508.06635v1 cs.LG, cs.AI, stat.ML 2025-08-13
Авторы:

Yewon Byun, Shantanu Gupta, Zachary C. Lipton, Rachel Leah Childers, Bryan Wilder

Резюме на русском

## Контекст Область исследования, связанная с использованием имеющихся данных в крупных моделях языка, набирает популярность в современных научных исследованиях. В частности, в рамках компьютерных и социальных наук, где данные часто ограничены, модели языка используются для генерирования данных и поддержки решения задач. Однако, генерируемые моделями данные могут иметь ошибки, что создает сложности для их использования в реальных приложениях. Более того, необходимо разрабатывать новые методы, которые позволят объединять имеющиеся данные с модельной синтетической информацией для получения точных выводов. Этот рабочей группой предлагается разработать универсальный метод, который позволит правильно объединять искусственные данные с реальными, несмотря на их неточности и различия. ## Метод Методология, разработанная в работе, основывается на новом подходе к решению задач учёта влияния искусственных данных на реальные. Основной инструмент, который используется в работе, является метод моментов, который позволяет объединить в единый процесс данные и модели. Разработчики предлагают также новую модель, которая не требует внесения гиперпараметров на этапе решения. Эта модель обладает теоретическими доказательствами, которые подтверждают, что она является эффективной для задач регрессии и других сложных моделей. Более того, авторы предлагают стратегию для оценки того, насколько модельная информация влияет на реальные данные и на итоговые выводы. ## Результаты Авторы проводили эксперименты на реальных данных, полученных в рамках различных социальных исследований. Использовались различные модели и методы, включая модели генерации текста и текстовой регрессии. Результаты показали, что комбинация модельной информации с реальными данными позволяет повысить точность регрессионных моделей и других моделей, которые используются в социальных исследованиях. Также были сравнены различные стратегии объединения данных и показано, что предлагаемый подход даёт значительный прирост в качестве решения задач. ## Значимость Результаты работы могут иметь значительное значение для различных областей, в том числе для компьютерных наук, социальных исследований и даже для бизнеса. Использование модельной информации, созданной технологиями генерации текста, может повысить точность выводов в ситуациях, когда реальные данные отсутствуют или ограничены. Более того, предлагаемый подход может повысить уровень достоверности результатов в области регрессии и других моделей. Этот подход также может быть применён для решения других задач, где необходимо интегрировать искусственные данные с реальными. ## Вывод

Abstract

Predictions and generations from large language models are increasingly being explored as an aid to computational social science and human subject research in limited data regimes. While previous technical work has explored the potential to use model-predicted labels for unlabeled data in a principled manner, there is increasing interest in using large language models to generate entirely new synthetic samples (also termed as synthetic simulations), such as in responses to surveys. However, it is not immediately clear by what means practitioners can combine such data with real data and yet produce statistically valid conclusions upon them. In this work, we introduce a new estimator based on generalized method of moments, providing a hyperparameter-free solution with strong theoretical guarantees to address the challenge at hand. Surprisingly, we find that interactions between the moment residuals of synthetic data and those of real data can improve estimates of the target parameter. We empirically validate the finite-sample performance of our estimator across different regression tasks in computational social science applications, demonstrating large empirical gains.

Ссылки и действия