📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 0

Последнее обновление: сегодня
Авторы:

Jyotishka Datta, Nicholas G. Polson

## Контекст Область исследования Prediction-Powered Inference (PPI) — рамка для доказательства статистических выводов, использующая неполностью меток данных. Она объединяет прогнозы модели на большом наборе непрознанных данных с коррекцией погрешности с меньшего прознанного подмножества. Тем не менее, существующая версия PPI не учитывает важность разметки, что может привести к неточностям в оценках. Это ограничение может возникнуть в областях, где информативность разметки является пропорциональной известным параметрам, таким как случайные выборки. Из этой мотивации возникает потребность в расширении PPI для обработки информативных разметок с помощью задачи обработки информации с весами. ## Метод Метод основывается на внедрении в PPI инверсных весов, используя типичные формулы Horvitz-Thompson и H\'ajek для обработки несбалансированных прознанных данных. Необходимо строить модели прогнозирования не только для основной модели, но и для весов разметки. Технический подход заключается в том, чтобы принимать оценки включения в качестве дополнительного параметра в модели весов. Это позволяет создать новый вид PPI, способный корректно учитывать важность разметки. Архитектура методологии включает в себя стандартные этапы построения модели прогнозирования, но также включает шаги для моделирования весов разметки, чтобы добиться достоверности результатов. ## Результаты Эксперименты проводились на синтетических данных и реальных наборах, где были оценены включение и прознанность в контексте PPI. Измерены были показатели точности, погрешности и доверительных интервалов. Обнаружено, что предложенный метод с инверсными весами дает похожие результаты с точки зрения доверительных интервалов и погрешности, даже если включенные вероятности не известны и вычисляются с помощью модели. Это показывает, что модель может эффективно корректировать погрешность в ситуациях, где информативность разметки неизвестна, но может быть приближена. ## Значимость Полученный подход может применяться в ситуациях, где разметка не является прознанной, но может быть предсказана с помощью моделей. Например, в области анализа данных с выбором по известным параметрам. Этот прием позволяет улучшить точность и достоверность информационных моделей, где традиционные методы могут иметь проблемы с искажением в случае неизвестных включений. Это также открывает новые шансы для использования PPI в областях сложной структуры данных, таких как семантический анализ и тематический моделирование. ## Выводы Основной достижением является расширение PPI для обработки информативных разметок с помощью весов. Это демонст
Annotation:
Prediction-powered inference (PPI) is a recent framework for valid statistical inference with partially labeled data, combining model-based predictions on a large unlabeled set with bias correction from a smaller labeled subset. We show that PPI can be extended to handle informative labeling by replacing its unweighted bias-correction term with an inverse probability weighted (IPW) version, using the classical Horvitz--Thompson or H\'ajek forms. This connection unites design-based survey samplin...
ID: 2508.10149v1 stat.ML, cs.LG, 62D10, 62F10, 62-02