Learn to optimize for automatic proton PBS treatment planning for H&N cancers
2508.11085v1
cs.AI, cs.LG
2025-08-19
Авторы:
Qingqing Wang, Liqiang Xiao, Chang Chang
Резюме на русском
## Контекст
**Проблема**: Традиционный подход к автоматизированному планированию лечения с помощью протонов (PBS) для заболеваний горла и горловых слизистых (H&N) требует значительных усилий от человеческих планировщиков. Это приводит к затягивающимся процессам, в ходе которых необходимо сбалансировать многочисленные конфликтующие цели, такие как охват целевой области и защита органов, отдаваемых органами. Эти задачи требуют тщательной настройки параметров и использования инверсной оптимизации, что значительно увеличивает время и сложность планирования.
**Мотивация**: Данная проблема мотивирует разработку методов, которые своевременно и эффективно решают задачи планирования, оптимизируя ключевые метрики без чрезмерного вмешательства планировщиков.
**Цель**: Наша цель заключается в разработке инверсного оптимизатора, который бы стал ключевым компонентом автоматизированного фреймворка для PBS-планирования, позволяющий генерировать высококачественные планы в клинически приемлемое время.
## Метод
**Описание методологии**: Мы предлагаем инверсный оптимизатор, основанный на методе обучения-по-задаче (L2O). Этот оптимизатор использует трансформерную архитектуру для обучения предсказания обновлений параметров. Для улучшения производительности в области длительных контекстов, мы интегрируем технологии, разработанные для глубоких обучаемых моделей (LLMs), в нашу модель. Инверсный оптимизатор работает как внутренний цикл, который принимает на вход целевые метрики, сформированные PPO-политикой.
**Архитектура**: Фреймворк включает в себя PPO-политику (обученную по сети), которая действует как внешний цикл, автоматически настраивая параметры целей. Для инициализации параметров используется модель предсказания дозы. Инверсный оптимизатор, в свою очередь, оптимизирует конфигурацию лучей и параметры дозирования, чтобы достичь желаемых метрик.
## Результаты
**Использованные данные**: Для тестирования были собраны данные 97 пациентов с H&N-заболеваниями. Мы сравнивали нашу модель с методом L-BFGS-B, известным за методы оптимизации для таких задач.
**Результаты эксперимента**: Наш инверсный оптимизатор демонстрирует значительные улучшения в эффективности и точности. Он уменьшил время планирования на 36.41% и улучшил приближение к клиническим целям, таким как охват целевой области и защита органов, на 22.97%.
**Сравнение с людьми**: Генерируемые нашей моделью планы показали значительные улучшения в защите органов, сохранив или превосходя класси
Abstract
Proton PBS treatment planning for H&N cancers involves numerous conflicting
objectives, requiring significant effort from human planners to balance and
satisfy multiple clinical goals during planning. To achieve this,
experience-demanding objective parameter adjustment and computationally
expensive inverse optimization are performed iteratively. Extensive efforts
have been made to automatically adjust objective parameters, but the most
time-consuming component, i.e., inverse optimization, still relies heavily on
theory-driven approaches. We propose a data-driven inverse optimizer and
integrate it into a PPO-based automatic treatment planning framework to
automatically generate high-quality plans within a clinical acceptable planning
time. The inverse optimizer is a L2O method that predicts update steps by
learning from the task-specific data distribution. For the first time, we
integrate techniques designed for long-context processing, originally developed
for LLMs, into a Transformer-based L2O framework to address the scalability
issue of existing L2O methods. The PPO framework functions as an outer-loop
virtual planner, autonomously adjusting objective parameters through a policy
network, and the dose predictor is used to initialize objective parameters. The
inner-loop L2O inverse optimizer computes machine-deliverable MU values based
on objectives refined by the PPO policy network. 97 patients are collected in
this study, and compared with L-BFGSB, our L2O-based inverse optimizer improves
the effectiveness and efficiency by 22.97% and 36.41%, respectively. In
conjunction with the PPO-based learned virtual planner, plans generated by our
framework within an average of 2.55 hours show improved or comparable OAR
sparing with superior target coverage for patients with different prescription
dose levels, number of target volumes, beam angles, etc., compared with
human-generated plans.
Ссылки и действия
Дополнительные ресурсы: