Feasibility-Guided Fair Adaptive Offline Reinforcement Learning for Medicaid Care Management

2509.09655v1 cs.LG, cs.AI, cs.LO, stat.AP 2025-09-13
Авторы:

Sanjay Basu, Sadiq Y. Patel, Parth Sheth, Bhairavi Muralidharan, Namrata Elamaran, Aakriti Kinra, Rajaie Batniji

Резюме на русском

## Контекст Область исследования — системы поддержки решений в сфере здравоохранения, основанных на методах машинного обучения. Одним из ключевых задач приложений, таких как оптимизация здоровья подпрограммы Medicaid, является создание систем, которые в то же время обеспечивают безопасность, эффективность и справедливость. Несправедливость в таких системах может возникать из-за неравенств в доступе к услугам, групповых предрассудков или неоднородности данных. Эти проблемы могут привести к неэффективным, или даже вредным решениям. В настоящей работе предлагается метод, который призван улучшить безопасность и справедливость, сохраняя эффективность. ## Метод Методология FG-FARL (Feasibility-Guided Fair Adaptive Reinforcement Learning) представляет собой процедуру оптимизации, которая стремится к сочетанию безопасности и справедливости. Она использует декомпозицию задачи на групповые подгруппы и устанавливает для каждой подгруппы отдельные пороговые значения вероятности для оптимизации. Эта гибкость позволяет уменьшить риск вреда, не ухудшая ключевые показатели. Архитектура FG-FARL опирается на адаптивное управление порогами безопасности на основе достижения справедливости, что делает её уникальной в сравнении с другими подходами, такими как HACO (Hybrid Adaptive Conformal Offline RL). Данные, использованные в исследовании, являются де-идентифицированными траекториями заболеваний выборки из программы Medicaid. ## Результаты Проведенные эксперименты показали, что FG-FARL добивается эффективности, похожей на лучшие базовые алгоритмы, такие как HACO. Однако она превосходит их в справедливости, сокращая параметры неравенства между группами на значительный процент. Использование доверительных интервалов с бутстрэп-методом позволило убедиться в надежности результатов. Также было проведено подробное анализирование диспаритетных метрик для каждой группы, что демонстрирует то, как FG-FARL сохраняет безопасность и улучшает справедливость по отношению к каждой группе. ## Значимость Предлагаемый подход может быть использован в различных сферах, где необходима безопасная и справедливая адаптивная оптимизация: от здравоохранения до финансовых услуг и транспортных систем. Одним из основных преимуществ является улучшенная справедливость без заметного ухудшения эффективности. Это может способствовать увеличению доверия к алгоритмам, которые используются в критически важных решениях. Будущие исследования будут направлены на улучшение алгоритма, увеличение гибкости и обобщение на другие сферы, где применение справедливости является к

Abstract

We introduce Feasibility-Guided Fair Adaptive Reinforcement Learning (FG-FARL), an offline RL procedure that calibrates per-group safety thresholds to reduce harm while equalizing a chosen fairness target (coverage or harm) across protected subgroups. Using de-identified longitudinal trajectories from a Medicaid population health management program, we evaluate FG-FARL against behavior cloning (BC) and HACO (Hybrid Adaptive Conformal Offline RL; a global conformal safety baseline). We report off-policy value estimates with bootstrap 95% confidence intervals and subgroup disparity analyses with p-values. FG-FARL achieves comparable value to baselines while improving fairness metrics, demonstrating a practical path to safer and more equitable decision support.

Ссылки и действия