Learn to optimize for automatic proton PBS treatment planning for H&N cancers

2508.11085v1 cs.AI, cs.LG 2025-08-19
Авторы:

Qingqing Wang, Liqiang Xiao, Chang Chang

Резюме на русском

## Контекст **Проблема**: Традиционный подход к автоматизированному планированию лечения с помощью протонов (PBS) для заболеваний горла и горловых слизистых (H&N) требует значительных усилий от человеческих планировщиков. Это приводит к затягивающимся процессам, в ходе которых необходимо сбалансировать многочисленные конфликтующие цели, такие как охват целевой области и защита органов, отдаваемых органами. Эти задачи требуют тщательной настройки параметров и использования инверсной оптимизации, что значительно увеличивает время и сложность планирования. **Мотивация**: Данная проблема мотивирует разработку методов, которые своевременно и эффективно решают задачи планирования, оптимизируя ключевые метрики без чрезмерного вмешательства планировщиков. **Цель**: Наша цель заключается в разработке инверсного оптимизатора, который бы стал ключевым компонентом автоматизированного фреймворка для PBS-планирования, позволяющий генерировать высококачественные планы в клинически приемлемое время. ## Метод **Описание методологии**: Мы предлагаем инверсный оптимизатор, основанный на методе обучения-по-задаче (L2O). Этот оптимизатор использует трансформерную архитектуру для обучения предсказания обновлений параметров. Для улучшения производительности в области длительных контекстов, мы интегрируем технологии, разработанные для глубоких обучаемых моделей (LLMs), в нашу модель. Инверсный оптимизатор работает как внутренний цикл, который принимает на вход целевые метрики, сформированные PPO-политикой. **Архитектура**: Фреймворк включает в себя PPO-политику (обученную по сети), которая действует как внешний цикл, автоматически настраивая параметры целей. Для инициализации параметров используется модель предсказания дозы. Инверсный оптимизатор, в свою очередь, оптимизирует конфигурацию лучей и параметры дозирования, чтобы достичь желаемых метрик. ## Результаты **Использованные данные**: Для тестирования были собраны данные 97 пациентов с H&N-заболеваниями. Мы сравнивали нашу модель с методом L-BFGS-B, известным за методы оптимизации для таких задач. **Результаты эксперимента**: Наш инверсный оптимизатор демонстрирует значительные улучшения в эффективности и точности. Он уменьшил время планирования на 36.41% и улучшил приближение к клиническим целям, таким как охват целевой области и защита органов, на 22.97%. **Сравнение с людьми**: Генерируемые нашей моделью планы показали значительные улучшения в защите органов, сохранив или превосходя класси

Abstract

Proton PBS treatment planning for H&N cancers involves numerous conflicting objectives, requiring significant effort from human planners to balance and satisfy multiple clinical goals during planning. To achieve this, experience-demanding objective parameter adjustment and computationally expensive inverse optimization are performed iteratively. Extensive efforts have been made to automatically adjust objective parameters, but the most time-consuming component, i.e., inverse optimization, still relies heavily on theory-driven approaches. We propose a data-driven inverse optimizer and integrate it into a PPO-based automatic treatment planning framework to automatically generate high-quality plans within a clinical acceptable planning time. The inverse optimizer is a L2O method that predicts update steps by learning from the task-specific data distribution. For the first time, we integrate techniques designed for long-context processing, originally developed for LLMs, into a Transformer-based L2O framework to address the scalability issue of existing L2O methods. The PPO framework functions as an outer-loop virtual planner, autonomously adjusting objective parameters through a policy network, and the dose predictor is used to initialize objective parameters. The inner-loop L2O inverse optimizer computes machine-deliverable MU values based on objectives refined by the PPO policy network. 97 patients are collected in this study, and compared with L-BFGSB, our L2O-based inverse optimizer improves the effectiveness and efficiency by 22.97% and 36.41%, respectively. In conjunction with the PPO-based learned virtual planner, plans generated by our framework within an average of 2.55 hours show improved or comparable OAR sparing with superior target coverage for patients with different prescription dose levels, number of target volumes, beam angles, etc., compared with human-generated plans.

Ссылки и действия