Hybrid Adaptive Conformal Offline Reinforcement Learning for Fair Population Health Management

2509.09772v1 cs.LG, stat.AP 2025-09-16

Авторы:

Sanjay Basu, Sadiq Y. Patel, Parth Sheth, Bhairavi Muralidharan, Namrata Elamaran, Aakriti Kinra, Rajaie Batniji

Резюме на русском

#### Контекст Программы управления здоровьем населения (population health management), ориентированные на получателей Medicaid, требуют алгоритмической поддержки для координации долгосрочных мероприятий и услуг (таких как помощь в получении выгод, биопсихосоматическая помощь, обеспечение субсидий и плановое лечение). Эти программы должны обеспечивать безопасность, справедливость и прозрачность. Однако существуют сложности в создании моделей, которые бы защищали от адверсных результатов (например, неплановые поездки в стационар или административные хоспитализации), при этом сохраняя эффективность в выборе действий. Баланс между качеством и безопасностью является ключевым заданием для этих программ. #### Метод Мы предлагаем фреймворк Hybrid Adaptive Conformal Offline Reinforcement Learning (HACO), который отделяет моделирование риска от оптимизации предпочтений. HACO работает в два этапа: (i) риск рассеяности оценивается через соотношение нормализованных матричных расстояний между тренировочными и тестовыми данными, и (ii) оптимизация действий происходит в сфере безопасных рекомендаций. Это реализуется через подбор порогов для нейронных сетей (conformal thresholding), который скрывает рекомендации с высоким риском. Архитектура включает легковесный модель риска для адверсных событий и политику оптимизации для выбора рекомендаций. #### Результаты Используя дезидентифицированный датасет Waymark, HACO проводил 2.77 миллиона последовательных рекомендаций по работе с 168,126 пациентами. Результаты показали, что HACO может (i) строить модели риска с AUC ~0.81, (ii) строить калиброванные пороги для безопасных рекомендаций ({\tau} ~0.038 при {\alpha} = 0.10), и (iii) сохранять высокую покрытие безопасных действий. Аудит подкаталогов показал, что модели несколько отличаются в оценке значения в различных демографических категориях, что подтверждает важность справедливого аудита. #### Значимость HACO может применяться в различных областях, таких как биомедицинские решения, управление здоровьем населения, и системы социальной поддержки. Он обеспечивает безопасные, эффективные рекомендации, снижая риск адверсных событий. Благодаря интеграции conformal risk gating внутри offline RL, HACO предлагает новую модель для построения аудируемых и консервативных решений для повышения качества здравоохранения. #### Выводы Предложенный фреймворк HACO демонстрирует значительный успех в создании аудируемых и безопасных моделей для поддержки решений в управлении здоровьем населения. Будущие исследования будут сфокусированы на расширении моделей для более сложных задач, в том числе мультиагентных систем и адаптивного обучения в реальном времени.

Abstract

Population health management programs for Medicaid populations coordinate longitudinal outreach and services (e.g., benefits navigation, behavioral health, social needs support, and clinical scheduling) and must be safe, fair, and auditable. We present a Hybrid Adaptive Conformal Offline Reinforcement Learning (HACO) framework that separates risk calibration from preference optimization to generate conservative action recommendations at scale. In our setting, each step involves choosing among common coordination actions (e.g., which member to contact, by which modality, and whether to route to a specialized service) while controlling the near-term risk of adverse utilization events (e.g., unplanned emergency department visits or hospitalizations). Using a de-identified operational dataset from Waymark comprising 2.77 million sequential decisions across 168,126 patients, HACO (i) trains a lightweight risk model for adverse events, (ii) derives a conformal threshold to mask unsafe actions at a target risk level, and (iii) learns a preference policy on the resulting safe subset. We evaluate policies with a version-agnostic fitted Q evaluation (FQE) on stratified subsets and audit subgroup performance across age, sex, and race. HACO achieves strong risk discrimination (AUC ~0.81) with a calibrated threshold ( {\tau} ~0.038 at {\alpha} = 0.10), while maintaining high safe coverage. Subgroup analyses reveal systematic differences in estimated value across demographics, underscoring the importance of fairness auditing. Our results show that conformal risk gating integrates cleanly with offline RL to deliver conservative, auditable decision support for population health management teams.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Hybrid Adaptive Conformal Offline Reinforcement Learning for Fair Population Health Management

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Joint Progression Modeling (JPM): A Probabilistic Framework for Mixed-Pathology ...

Automobile demand forecasting: Spatiotemporal and hierarchical modeling, life cy...

Achieving Skilled and Reliable Daily Probabilistic Forecasts of Wind Power at Su...

ForeSWE: Forecasting Snow-Water Equivalent with an Uncertainty-Aware Attention M...

A Probabilistic Approach to Pose Synchronization for Multi-Reference Alignment w...

Навигация