Prediction-Powered Inference with Inverse Probability Weighting

2508.10149v1 stat.ML, cs.LG, 62D10, 62F10, 62-02 2025-08-15
Авторы:

Jyotishka Datta, Nicholas G. Polson

Резюме на русском

## Контекст Область исследования Prediction-Powered Inference (PPI) — рамка для доказательства статистических выводов, использующая неполностью меток данных. Она объединяет прогнозы модели на большом наборе непрознанных данных с коррекцией погрешности с меньшего прознанного подмножества. Тем не менее, существующая версия PPI не учитывает важность разметки, что может привести к неточностям в оценках. Это ограничение может возникнуть в областях, где информативность разметки является пропорциональной известным параметрам, таким как случайные выборки. Из этой мотивации возникает потребность в расширении PPI для обработки информативных разметок с помощью задачи обработки информации с весами. ## Метод Метод основывается на внедрении в PPI инверсных весов, используя типичные формулы Horvitz-Thompson и H\'ajek для обработки несбалансированных прознанных данных. Необходимо строить модели прогнозирования не только для основной модели, но и для весов разметки. Технический подход заключается в том, чтобы принимать оценки включения в качестве дополнительного параметра в модели весов. Это позволяет создать новый вид PPI, способный корректно учитывать важность разметки. Архитектура методологии включает в себя стандартные этапы построения модели прогнозирования, но также включает шаги для моделирования весов разметки, чтобы добиться достоверности результатов. ## Результаты Эксперименты проводились на синтетических данных и реальных наборах, где были оценены включение и прознанность в контексте PPI. Измерены были показатели точности, погрешности и доверительных интервалов. Обнаружено, что предложенный метод с инверсными весами дает похожие результаты с точки зрения доверительных интервалов и погрешности, даже если включенные вероятности не известны и вычисляются с помощью модели. Это показывает, что модель может эффективно корректировать погрешность в ситуациях, где информативность разметки неизвестна, но может быть приближена. ## Значимость Полученный подход может применяться в ситуациях, где разметка не является прознанной, но может быть предсказана с помощью моделей. Например, в области анализа данных с выбором по известным параметрам. Этот прием позволяет улучшить точность и достоверность информационных моделей, где традиционные методы могут иметь проблемы с искажением в случае неизвестных включений. Это также открывает новые шансы для использования PPI в областях сложной структуры данных, таких как семантический анализ и тематический моделирование. ## Выводы Основной достижением является расширение PPI для обработки информативных разметок с помощью весов. Это демонст

Abstract

Prediction-powered inference (PPI) is a recent framework for valid statistical inference with partially labeled data, combining model-based predictions on a large unlabeled set with bias correction from a smaller labeled subset. We show that PPI can be extended to handle informative labeling by replacing its unweighted bias-correction term with an inverse probability weighted (IPW) version, using the classical Horvitz--Thompson or H\'ajek forms. This connection unites design-based survey sampling ideas with modern prediction-assisted inference, yielding estimators that remain valid when labeling probabilities vary across units. We consider the common setting where the inclusion probabilities are not known but estimated from a correctly specified model. In simulations, the performance of IPW-adjusted PPI with estimated propensities closely matches the known-probability case, retaining both nominal coverage and the variance-reduction benefits of PPI.

Ссылки и действия