Counterfactual Survival Q Learning for Longitudinal Randomized Trials via Buckley James Boosting

2508.11060v1 stat.ML, cs.LG, stat.ME 2025-08-19
Авторы:

Jeongjin Lee, Jong-Min Kim

Резюме на русском

## Контекст Одной из ключевых областей исследований в медицинских и клинических исследованиях является уточнение оптимальных динамических режимов лечения (optimal dynamic treatment regimes, ODTR) на основе данных с клиническими испытаниями. Несмотря на то, что многие методы, такие как Cox-based Q-learning, используются для оценки таких режимов, они часто сталкиваются с проблемами, такими как ограниченная способность обрабатывать сложные паттерны данных и устойчивость к биасу при неправильном моделировании. Дополнительно, в клинических испытаниях важна точность оценки результатов для уровней, таких как стадии лечения, чтобы избежать агрегирования биаса. Данная статья предлагает новую модель, BJ Boost Q learning, которая ориентирована на решение этих проблем, особенно в случае длительных клинических испытаний с правой законченностью (right censored survival data). ## Метод Метод BJ Boost Q learning основывается на интеграции Buckley James (BJ) boosting с методами Q-learning. Он использует модели accelerated failure time (AFT) для точного моделирования условной скорости выживаемости, что позволяет избегать проблем, связанных с неправильным моделированием. Метод также включает в себя iterative boosting, включая componentwise least squares и регрессионные деревья. Это позволяет производить более точную оценку Q-функций на каждой стадии лечения. Кроме того, BJ Boost Q learning не зависит от пропорциональных рисков (proportional hazards), что дает большую гибкость и устраняет биасы, которые могут возникать в классических подходах. ## Результаты Исследования показали, что BJ Boost Q learning выдает более точные результаты в задачах динамического лечения, особенно в сложных клинических ситуациях, когда данные подвержены законченности (right censoring). Для проверки работоспособности были проведены симуляционные эксперименты и анализ данных из ACTG175 HIV-триала. Эти исследования показали, что BJ Boost Q learning превышает современные методы, такие как Cox-based Q-learning, в точности оценки и быстродействии, особенно в многостадийных случаях, где существует риск агрегирования биаса. ## Значимость Благодаря своей гибкости и точности BJ Boost Q learning может быть применен в различных областях, включая клинические испытания, в которых необходимо оценивать динамические режимы лечения. Этот подход обеспечивает более точную индивидуализацию лечения и повышает достоверность результатов. Дальнейшие исследования могут сосредоточиться на расширении модели для учета новых факторов и интеграции с другими методами машинного обучения. ## Выводы BJ Boost Q learning представляет собой новую модель для оценки динамических режимов лечения, которая устраняет ограничения классических подходов. Результаты симуляций и клинического анализа демонстрируют высокую эффективность и точность этого метода,

Abstract

We propose a Buckley James (BJ) Boost Q learning framework for estimating optimal dynamic treatment regimes under right censored survival data, tailored for longitudinal randomized clinical trial settings. The method integrates accelerated failure time models with iterative boosting techniques, including componentwise least squares and regression trees, within a counterfactual Q learning framework. By directly modeling conditional survival time, BJ Boost Q learning avoids the restrictive proportional hazards assumption and enables unbiased estimation of stage specific Q functions. Grounded in potential outcomes, this framework ensures identifiability of the optimal treatment regime under standard causal assumptions. Compared to Cox based Q learning, which relies on hazard modeling and may suffer from bias under misspecification, our approach provides robust and flexible estimation. Simulation studies and analysis of the ACTG175 HIV trial demonstrate that BJ Boost Q learning yields higher accuracy in treatment decision making, especially in multistage settings where bias can accumulate.

Ссылки и действия