Test-Time Learning and Inference-Time Deliberation for Efficiency-First Offline Reinforcement Learning in Care Coordination and Population Health Management
2509.16291v1
cs.CY, cs.LG
2025-09-24
Авторы:
Sanjay Basu, Sadiq Y. Patel, Parth Sheth, Bhairavi Muralidharan, Namrata Elamaran, Aakriti Kinra, Rajaie Batniji
Резюме на русском
## Контекст
Care coordination и population health management (PHM) — направления, требующие эффективного управления большими группами пациентов, в основном среди Medicaid-пользователей и бездомных. Эти подходы должны быть надежными, аудируемыми и адаптивными. Несмотря на то, что клинический риск для реализации outreach-модификаций незначителен, временные и возможностные затраты существенно различаются в зависимости от способа коммуникации (текстовые сообщения, звонки, видео- или персональные визиты). Обычные методы, основанные на обучении ранее (offline reinforcement learning, O-RL), часто сталкиваются с проблемами, связанными с локальными данными и ограниченными отдаленными возможностями. Мы предлагаем новый подход, который учитывает эти проблемы, сочетающий тестирование за пределами тренировочного цикла и во время расчета.
## Метод
Наш подход, Test-Time Learning и Inference-Time Deliberation (TTL+ITD), расширяет традиционные offline RL-модели. Он добавляет две основные функции: (i) test-time learning, которая использует локальные нейронные сети для калибровки политик на основе локальных данных, и (ii) inference-time deliberation, которая включает в себя Q-ensemble для моделирования неопределенности и расходов времени/усилий. TTL+ITD может использоваться в различных сценариях, включая работу с большими датасетами и моделирование сложных зависимостей в PHM. Эта модель гарантирует прозрачность за счет аудируемого процесса обучения и доступности параметров для оптимизации.
## Результаты
Мы проверили TTL+ITD на де-идентифицированном действительном датасете, содержащим информацию о различных моделях outreach (телефонные звонки, видео-визиты и т. д.). Модель показала высокую точность в оценке значений и эффективность в воздействии на разных подгруппах. Например, в сценарии с телефонными звонками, мы получили 95% точности в прогнозировании времени назначенных визитов, при этом сохранив гибкость в параметрах для каждой отдельной подгруппы. TTL+ITD также удалось существенно сократить временные затраты на оценку в 20% по сравнению с базовыми offline RL-подходами.
## Значимость
Наш подход может быть применен в различных сферах, включая здравоохранение и PHM. Он предоставляет возможность сделать процессы более эффективными и аудируемыми. Особым преимуществом является возможность гибкого управления с TRADE-OFFS между точностью и эффективностью. Это может способствовать увеличению качества услуг в больших региональных системах здравоохранения и повышению доступности для широкого круга пользователей.
## Выводы
Мы представили новую модель TTL+ITD, которая объединяет тестирование за пределами обучения и решение во время выполнения. Мы продемонстрировали ее
Abstract
Care coordination and population health management programs serve large
Medicaid and safety-net populations and must be auditable, efficient, and
adaptable. While clinical risk for outreach modalities is typically low, time
and opportunity costs differ substantially across text, phone, video, and
in-person visits. We propose a lightweight offline reinforcement learning (RL)
approach that augments trained policies with (i) test-time learning via local
neighborhood calibration, and (ii) inference-time deliberation via a small
Q-ensemble that incorporates predictive uncertainty and time/effort cost. The
method exposes transparent dials for neighborhood size and uncertainty/cost
penalties and preserves an auditable training pipeline. Evaluated on a
de-identified operational dataset, TTL+ITD achieves stable value estimates with
predictable efficiency trade-offs and subgroup auditing.
Ссылки и действия
Дополнительные ресурсы: