Prediction-Powered Inference with Inverse Probability Weighting
2508.10149v1
stat.ML, cs.LG, 62D10, 62F10, 62-02
2025-08-15
Авторы:
Jyotishka Datta, Nicholas G. Polson
Резюме на русском
## Контекст
Область исследования Prediction-Powered Inference (PPI) — рамка для доказательства статистических выводов, использующая неполностью меток данных. Она объединяет прогнозы модели на большом наборе непрознанных данных с коррекцией погрешности с меньшего прознанного подмножества. Тем не менее, существующая версия PPI не учитывает важность разметки, что может привести к неточностям в оценках. Это ограничение может возникнуть в областях, где информативность разметки является пропорциональной известным параметрам, таким как случайные выборки. Из этой мотивации возникает потребность в расширении PPI для обработки информативных разметок с помощью задачи обработки информации с весами.
## Метод
Метод основывается на внедрении в PPI инверсных весов, используя типичные формулы Horvitz-Thompson и H\'ajek для обработки несбалансированных прознанных данных. Необходимо строить модели прогнозирования не только для основной модели, но и для весов разметки. Технический подход заключается в том, чтобы принимать оценки включения в качестве дополнительного параметра в модели весов. Это позволяет создать новый вид PPI, способный корректно учитывать важность разметки. Архитектура методологии включает в себя стандартные этапы построения модели прогнозирования, но также включает шаги для моделирования весов разметки, чтобы добиться достоверности результатов.
## Результаты
Эксперименты проводились на синтетических данных и реальных наборах, где были оценены включение и прознанность в контексте PPI. Измерены были показатели точности, погрешности и доверительных интервалов. Обнаружено, что предложенный метод с инверсными весами дает похожие результаты с точки зрения доверительных интервалов и погрешности, даже если включенные вероятности не известны и вычисляются с помощью модели. Это показывает, что модель может эффективно корректировать погрешность в ситуациях, где информативность разметки неизвестна, но может быть приближена.
## Значимость
Полученный подход может применяться в ситуациях, где разметка не является прознанной, но может быть предсказана с помощью моделей. Например, в области анализа данных с выбором по известным параметрам. Этот прием позволяет улучшить точность и достоверность информационных моделей, где традиционные методы могут иметь проблемы с искажением в случае неизвестных включений. Это также открывает новые шансы для использования PPI в областях сложной структуры данных, таких как семантический анализ и тематический моделирование.
## Выводы
Основной достижением является расширение PPI для обработки информативных разметок с помощью весов. Это демонст
Abstract
Prediction-powered inference (PPI) is a recent framework for valid
statistical inference with partially labeled data, combining model-based
predictions on a large unlabeled set with bias correction from a smaller
labeled subset. We show that PPI can be extended to handle informative labeling
by replacing its unweighted bias-correction term with an inverse probability
weighted (IPW) version, using the classical Horvitz--Thompson or H\'ajek forms.
This connection unites design-based survey sampling ideas with modern
prediction-assisted inference, yielding estimators that remain valid when
labeling probabilities vary across units. We consider the common setting where
the inclusion probabilities are not known but estimated from a correctly
specified model. In simulations, the performance of IPW-adjusted PPI with
estimated propensities closely matches the known-probability case, retaining
both nominal coverage and the variance-reduction benefits of PPI.