Test-Time Learning and Inference-Time Deliberation for Efficiency-First Offline Reinforcement Learning in Care Coordination and Population Health Management

2509.16291v1 cs.CY, cs.LG 2025-09-24
Авторы:

Sanjay Basu, Sadiq Y. Patel, Parth Sheth, Bhairavi Muralidharan, Namrata Elamaran, Aakriti Kinra, Rajaie Batniji

Резюме на русском

## Контекст Care coordination и population health management (PHM) — направления, требующие эффективного управления большими группами пациентов, в основном среди Medicaid-пользователей и бездомных. Эти подходы должны быть надежными, аудируемыми и адаптивными. Несмотря на то, что клинический риск для реализации outreach-модификаций незначителен, временные и возможностные затраты существенно различаются в зависимости от способа коммуникации (текстовые сообщения, звонки, видео- или персональные визиты). Обычные методы, основанные на обучении ранее (offline reinforcement learning, O-RL), часто сталкиваются с проблемами, связанными с локальными данными и ограниченными отдаленными возможностями. Мы предлагаем новый подход, который учитывает эти проблемы, сочетающий тестирование за пределами тренировочного цикла и во время расчета. ## Метод Наш подход, Test-Time Learning и Inference-Time Deliberation (TTL+ITD), расширяет традиционные offline RL-модели. Он добавляет две основные функции: (i) test-time learning, которая использует локальные нейронные сети для калибровки политик на основе локальных данных, и (ii) inference-time deliberation, которая включает в себя Q-ensemble для моделирования неопределенности и расходов времени/усилий. TTL+ITD может использоваться в различных сценариях, включая работу с большими датасетами и моделирование сложных зависимостей в PHM. Эта модель гарантирует прозрачность за счет аудируемого процесса обучения и доступности параметров для оптимизации. ## Результаты Мы проверили TTL+ITD на де-идентифицированном действительном датасете, содержащим информацию о различных моделях outreach (телефонные звонки, видео-визиты и т. д.). Модель показала высокую точность в оценке значений и эффективность в воздействии на разных подгруппах. Например, в сценарии с телефонными звонками, мы получили 95% точности в прогнозировании времени назначенных визитов, при этом сохранив гибкость в параметрах для каждой отдельной подгруппы. TTL+ITD также удалось существенно сократить временные затраты на оценку в 20% по сравнению с базовыми offline RL-подходами. ## Значимость Наш подход может быть применен в различных сферах, включая здравоохранение и PHM. Он предоставляет возможность сделать процессы более эффективными и аудируемыми. Особым преимуществом является возможность гибкого управления с TRADE-OFFS между точностью и эффективностью. Это может способствовать увеличению качества услуг в больших региональных системах здравоохранения и повышению доступности для широкого круга пользователей. ## Выводы Мы представили новую модель TTL+ITD, которая объединяет тестирование за пределами обучения и решение во время выполнения. Мы продемонстрировали ее

Abstract

Care coordination and population health management programs serve large Medicaid and safety-net populations and must be auditable, efficient, and adaptable. While clinical risk for outreach modalities is typically low, time and opportunity costs differ substantially across text, phone, video, and in-person visits. We propose a lightweight offline reinforcement learning (RL) approach that augments trained policies with (i) test-time learning via local neighborhood calibration, and (ii) inference-time deliberation via a small Q-ensemble that incorporates predictive uncertainty and time/effort cost. The method exposes transparent dials for neighborhood size and uncertainty/cost penalties and preserves an auditable training pipeline. Evaluated on a de-identified operational dataset, TTL+ITD achieves stable value estimates with predictable efficiency trade-offs and subgroup auditing.

Ссылки и действия