Hybrid Adaptive Conformal Offline Reinforcement Learning for Fair Population Health Management
2509.09772v1
cs.LG, stat.AP
2025-09-16
Авторы:
Sanjay Basu, Sadiq Y. Patel, Parth Sheth, Bhairavi Muralidharan, Namrata Elamaran, Aakriti Kinra, Rajaie Batniji
Резюме на русском
#### Контекст
Программы управления здоровьем населения (population health management), ориентированные на получателей Medicaid, требуют алгоритмической поддержки для координации долгосрочных мероприятий и услуг (таких как помощь в получении выгод, биопсихосоматическая помощь, обеспечение субсидий и плановое лечение). Эти программы должны обеспечивать безопасность, справедливость и прозрачность. Однако существуют сложности в создании моделей, которые бы защищали от адверсных результатов (например, неплановые поездки в стационар или административные хоспитализации), при этом сохраняя эффективность в выборе действий. Баланс между качеством и безопасностью является ключевым заданием для этих программ.
#### Метод
Мы предлагаем фреймворк Hybrid Adaptive Conformal Offline Reinforcement Learning (HACO), который отделяет моделирование риска от оптимизации предпочтений. HACO работает в два этапа: (i) риск рассеяности оценивается через соотношение нормализованных матричных расстояний между тренировочными и тестовыми данными, и (ii) оптимизация действий происходит в сфере безопасных рекомендаций. Это реализуется через подбор порогов для нейронных сетей (conformal thresholding), который скрывает рекомендации с высоким риском. Архитектура включает легковесный модель риска для адверсных событий и политику оптимизации для выбора рекомендаций.
#### Результаты
Используя дезидентифицированный датасет Waymark, HACO проводил 2.77 миллиона последовательных рекомендаций по работе с 168,126 пациентами. Результаты показали, что HACO может (i) строить модели риска с AUC ~0.81, (ii) строить калиброванные пороги для безопасных рекомендаций ({\tau} ~0.038 при {\alpha} = 0.10), и (iii) сохранять высокую покрытие безопасных действий. Аудит подкаталогов показал, что модели несколько отличаются в оценке значения в различных демографических категориях, что подтверждает важность справедливого аудита.
#### Значимость
HACO может применяться в различных областях, таких как биомедицинские решения, управление здоровьем населения, и системы социальной поддержки. Он обеспечивает безопасные, эффективные рекомендации, снижая риск адверсных событий. Благодаря интеграции conformal risk gating внутри offline RL, HACO предлагает новую модель для построения аудируемых и консервативных решений для повышения качества здравоохранения.
#### Выводы
Предложенный фреймворк HACO демонстрирует значительный успех в создании аудируемых и безопасных моделей для поддержки решений в управлении здоровьем населения. Будущие исследования будут сфокусированы на расширении моделей для более сложных задач, в том числе мультиагентных систем и адаптивного обучения в реальном времени.
Abstract
Population health management programs for Medicaid populations coordinate
longitudinal outreach and services (e.g., benefits navigation, behavioral
health, social needs support, and clinical scheduling) and must be safe, fair,
and auditable. We present a Hybrid Adaptive Conformal Offline Reinforcement
Learning (HACO) framework that separates risk calibration from preference
optimization to generate conservative action recommendations at scale. In our
setting, each step involves choosing among common coordination actions (e.g.,
which member to contact, by which modality, and whether to route to a
specialized service) while controlling the near-term risk of adverse
utilization events (e.g., unplanned emergency department visits or
hospitalizations). Using a de-identified operational dataset from Waymark
comprising 2.77 million sequential decisions across 168,126 patients, HACO (i)
trains a lightweight risk model for adverse events, (ii) derives a conformal
threshold to mask unsafe actions at a target risk level, and (iii) learns a
preference policy on the resulting safe subset. We evaluate policies with a
version-agnostic fitted Q evaluation (FQE) on stratified subsets and audit
subgroup performance across age, sex, and race. HACO achieves strong risk
discrimination (AUC ~0.81) with a calibrated threshold ( {\tau} ~0.038 at
{\alpha} = 0.10), while maintaining high safe coverage. Subgroup analyses
reveal systematic differences in estimated value across demographics,
underscoring the importance of fairness auditing. Our results show that
conformal risk gating integrates cleanly with offline RL to deliver
conservative, auditable decision support for population health management
teams.
Ссылки и действия
Дополнительные ресурсы: