Benchmarking GPT-5 in Radiation Oncology: Measurable Gains, but Persistent Need for Expert Oversight
2508.21777v1
cs.CV, cs.AI, cs.LG
2025-09-02
Авторы:
Ugur Dinc, Jibak Sarkar, Philipp Schubert, Sabine Semrau, Thomas Weissmann, Andre Karius, Johann Brand, Bernd-Niklas Axer, Ahmed Gomaa, Pluvio Stephan, Ishita Sheth, Sogand Beirami, Annette Schwarz, Udo Gaipl, Benjamin Frey, Christoph Bert, Stefanie Corradini, Rainer Fietkau, Florian Putz
Резюме на русском
## Контекст
Область радиологии широко применяется в медицине, особенно в радиологии онкологии, где точность и качество лечения играют ключевую роль в результатах лечения. Использование глубокого обучения и гра LLM (large language models) продвинуло границы клинической поддержки решений. GPT-5, новый LLM-система, была специально разработана для применения в онкологии. Несмотря на свои возможности, существуют вопросы относительно точности и достоверности его рекомендаций. Эта статья описывает эксперимент по оценке GPT-5 в радиологии онкологии, с целью оценить точность и качество рекомендаций.
## Метод
Для оценки GPT-5 были использованы два основных подхода. В первом подходе GPT-5 прошёл тест ACR Radiation Oncology In-Training Examination (TXIT, 2021), состоящий из 300 многовариантных вопросов. На втором этапе GPT-5 был запрограммирован для генерации лечебных планов по 60 реальным задачам в области радиологии онкологии. Эксперты, основываясь на уровне точности, полноту и наличие нереальных рекомендаций (hallucinations), оценивали рекомендации. Для измерения согласия между экспертами использовался метод Fleiss' \k{appa}.
## Результаты
GPT-5 показал высокую точность на TXIT, достигнув среднего результата 92.8%. Это значительно превышает результаты GPT-4 (78.8%) и GPT-3.5 (62.1%). Особенно выдающиеся результаты были показаны в областях Dose и Diagnosis. В реальных задачах лечебные рекомендации GPT-5 были оценены высоко на точности (средний балл 3.24 из 4) и полноту (3.59 из 4). Халлуцинации были редкими, и ни один случай не достиг согласия в оценке экспертов. Наблюдались ошибки в сложных случаях, требующих точного понимания протоколов или четкой клинической настройки.
## Значимость
Полученные результаты указывают на значительный потенциал GPT-5 в области радиологии онкологии. Его можно использовать для поддержки клинических решений, но только при подробном клиническом контроле. Его может применяться как инструмент для повышения эффективности и точности лечения. Однако есть необходимость в дальнейших исследованиях для уменьшения ошибок и улучшения стабильности рекомендаций.
## Выводы
GPT-5 демонстрирует значительные улучшения по сравнению с предыдущими версиями GPT в области радиологии онкологии. Он показывает высокую точность и полноту в лечебных рекомендациях. Однако необходимость в клиническом контроле и устранении ошибок, особенно в сложных случаях, остается приоритетной. Будущие исследования должны сфокусироваться на уменьшении ошибок и повышении стабильности рекомендаций в реальных клинических условиях.
Abstract
Introduction: Large language models (LLM) have shown great potential in
clinical decision support. GPT-5 is a novel LLM system that has been
specifically marketed towards oncology use.
Methods: Performance was assessed using two complementary benchmarks: (i) the
ACR Radiation Oncology In-Training Examination (TXIT, 2021), comprising 300
multiple-choice items, and (ii) a curated set of 60 authentic radiation
oncologic vignettes representing diverse disease sites and treatment
indications. For the vignette evaluation, GPT-5 was instructed to generate
concise therapeutic plans. Four board-certified radiation oncologists rated
correctness, comprehensiveness, and hallucinations. Inter-rater reliability was
quantified using Fleiss' \k{appa}.
Results: On the TXIT benchmark, GPT-5 achieved a mean accuracy of 92.8%,
outperforming GPT-4 (78.8%) and GPT-3.5 (62.1%). Domain-specific gains were
most pronounced in Dose and Diagnosis. In the vignette evaluation, GPT-5's
treatment recommendations were rated highly for correctness (mean 3.24/4, 95%
CI: 3.11-3.38) and comprehensiveness (3.59/4, 95% CI: 3.49-3.69).
Hallucinations were rare with no case reaching majority consensus for their
presence. Inter-rater agreement was low (Fleiss' \k{appa} 0.083 for
correctness), reflecting inherent variability in clinical judgment. Errors
clustered in complex scenarios requiring precise trial knowledge or detailed
clinical adaptation.
Discussion: GPT-5 clearly outperformed prior model variants on the radiation
oncology multiple-choice benchmark. Although GPT-5 exhibited favorable
performance in generating real-world radiation oncology treatment
recommendations, correctness ratings indicate room for further improvement.
While hallucinations were infrequent, the presence of substantive errors
underscores that GPT-5-generated recommendations require rigorous expert
oversight before clinical implementation.
Ссылки и действия
Дополнительные ресурсы: