Synthetic Counterfactual Labels for Efficient Conformal Counterfactual Inference

2509.04112v1 cs.LG, cs.IT, math.IT 2025-09-06
Авторы:

Amirmohammad Farzaneh, Matteo Zecchin, Osvaldo Simeone

Резюме на русском

## Контекст Область исследования фокусируется на построении надежных прогностических интервалов для индивидуальных контрфактивных выводов. Традиционные методы совместимости контрфактивной инференции (CCI) обеспечивают маргинальное покрытие, но часто слишком консервативны, особенно при небольшом количестве данных для контрфактивных выводов. Эти ограничения ограничивают эффективность и применимость CCI в реальных сценариях. Исследование адресует эти проблемы, стремясь создать более точные и эффективные интервалы прогноза, учитывая ограниченные данные и ситуации неравенства в лечении. ## Метод Новый подход, SP-CCI, предлагает добавление синтетических данных в процесс калибровки. Эти данные генерируются с помощью предварительно обученной модели вывода контрфактивных значений. Для обеспечения достоверности используется процедура калибровки на основе RCPS (Risk-Controlling Prediction Sets) с учетом PPI (Prediction-Powered Inference) для устранения зашумленности. Этот метод позволяет объединить точность и надежность, повысив эффективность CCI. Теоретические результаты подтверждают, что SP-CCI обеспечивает ужешие интервалы прогноза, сохраняя маргинальное покрытие. ## Результаты Исследования проводились на различных данных, включая симуляционные модели и реальные выборки. Результаты показали, что SP-CCI существенно уменьшает ширину прогностических интервалов по сравнению с стандартным CCI, не утрачивая маргинальной точности. Эксперименты указали на улучшение производительности в случаях неравенства в лечении и относительно небольших объемов данных. ## Значимость Этот подход может быть применен в различных областях, где необходимо обеспечение точных интервальных прогнозов, например, в медицине, финансах или техническом сервисе. SP-CCI предлагает более эффективные интервалы прогноза, чем существующие методы, что повышает степень доверия к результатам и уменьшает вероятность ошибки. Это может привести к значительным повышениям эффективности в принятии решений и уменьшению потерь. ## Выводы Результаты доказали эффективность SP-CCI в создании более точных интервалов прогноза, не теряя маргинальной согласованности. Будущие исследования будут сконцентрированы на расширении этого подхода к более сложным задачам и применении в реальных сценариях, а также на улучшении методов генерации синтетических данных для обеспечения более точного понимания контрфактивных явлений.

Abstract

This work addresses the problem of constructing reliable prediction intervals for individual counterfactual outcomes. Existing conformal counterfactual inference (CCI) methods provide marginal coverage guarantees but often produce overly conservative intervals, particularly under treatment imbalance when counterfactual samples are scarce. We introduce synthetic data-powered CCI (SP-CCI), a new framework that augments the calibration set with synthetic counterfactual labels generated by a pre-trained counterfactual model. To ensure validity, SP-CCI incorporates synthetic samples into a conformal calibration procedure based on risk-controlling prediction sets (RCPS) with a debiasing step informed by prediction-powered inference (PPI). We prove that SP-CCI achieves tighter prediction intervals while preserving marginal coverage, with theoretical guarantees under both exact and approximate importance weighting. Empirical results on different datasets confirm that SP-CCI consistently reduces interval width compared to standard CCI across all settings.

Ссылки и действия