Benchmarking GPT-5 in Radiation Oncology: Measurable Gains, but Persistent Need for Expert Oversight

2508.21777v1 cs.CV, cs.AI, cs.LG 2025-09-02
Авторы:

Ugur Dinc, Jibak Sarkar, Philipp Schubert, Sabine Semrau, Thomas Weissmann, Andre Karius, Johann Brand, Bernd-Niklas Axer, Ahmed Gomaa, Pluvio Stephan, Ishita Sheth, Sogand Beirami, Annette Schwarz, Udo Gaipl, Benjamin Frey, Christoph Bert, Stefanie Corradini, Rainer Fietkau, Florian Putz

Резюме на русском

## Контекст Область радиологии широко применяется в медицине, особенно в радиологии онкологии, где точность и качество лечения играют ключевую роль в результатах лечения. Использование глубокого обучения и гра LLM (large language models) продвинуло границы клинической поддержки решений. GPT-5, новый LLM-система, была специально разработана для применения в онкологии. Несмотря на свои возможности, существуют вопросы относительно точности и достоверности его рекомендаций. Эта статья описывает эксперимент по оценке GPT-5 в радиологии онкологии, с целью оценить точность и качество рекомендаций. ## Метод Для оценки GPT-5 были использованы два основных подхода. В первом подходе GPT-5 прошёл тест ACR Radiation Oncology In-Training Examination (TXIT, 2021), состоящий из 300 многовариантных вопросов. На втором этапе GPT-5 был запрограммирован для генерации лечебных планов по 60 реальным задачам в области радиологии онкологии. Эксперты, основываясь на уровне точности, полноту и наличие нереальных рекомендаций (hallucinations), оценивали рекомендации. Для измерения согласия между экспертами использовался метод Fleiss' \k{appa}. ## Результаты GPT-5 показал высокую точность на TXIT, достигнув среднего результата 92.8%. Это значительно превышает результаты GPT-4 (78.8%) и GPT-3.5 (62.1%). Особенно выдающиеся результаты были показаны в областях Dose и Diagnosis. В реальных задачах лечебные рекомендации GPT-5 были оценены высоко на точности (средний балл 3.24 из 4) и полноту (3.59 из 4). Халлуцинации были редкими, и ни один случай не достиг согласия в оценке экспертов. Наблюдались ошибки в сложных случаях, требующих точного понимания протоколов или четкой клинической настройки. ## Значимость Полученные результаты указывают на значительный потенциал GPT-5 в области радиологии онкологии. Его можно использовать для поддержки клинических решений, но только при подробном клиническом контроле. Его может применяться как инструмент для повышения эффективности и точности лечения. Однако есть необходимость в дальнейших исследованиях для уменьшения ошибок и улучшения стабильности рекомендаций. ## Выводы GPT-5 демонстрирует значительные улучшения по сравнению с предыдущими версиями GPT в области радиологии онкологии. Он показывает высокую точность и полноту в лечебных рекомендациях. Однако необходимость в клиническом контроле и устранении ошибок, особенно в сложных случаях, остается приоритетной. Будущие исследования должны сфокусироваться на уменьшении ошибок и повышении стабильности рекомендаций в реальных клинических условиях.

Abstract

Introduction: Large language models (LLM) have shown great potential in clinical decision support. GPT-5 is a novel LLM system that has been specifically marketed towards oncology use. Methods: Performance was assessed using two complementary benchmarks: (i) the ACR Radiation Oncology In-Training Examination (TXIT, 2021), comprising 300 multiple-choice items, and (ii) a curated set of 60 authentic radiation oncologic vignettes representing diverse disease sites and treatment indications. For the vignette evaluation, GPT-5 was instructed to generate concise therapeutic plans. Four board-certified radiation oncologists rated correctness, comprehensiveness, and hallucinations. Inter-rater reliability was quantified using Fleiss' \k{appa}. Results: On the TXIT benchmark, GPT-5 achieved a mean accuracy of 92.8%, outperforming GPT-4 (78.8%) and GPT-3.5 (62.1%). Domain-specific gains were most pronounced in Dose and Diagnosis. In the vignette evaluation, GPT-5's treatment recommendations were rated highly for correctness (mean 3.24/4, 95% CI: 3.11-3.38) and comprehensiveness (3.59/4, 95% CI: 3.49-3.69). Hallucinations were rare with no case reaching majority consensus for their presence. Inter-rater agreement was low (Fleiss' \k{appa} 0.083 for correctness), reflecting inherent variability in clinical judgment. Errors clustered in complex scenarios requiring precise trial knowledge or detailed clinical adaptation. Discussion: GPT-5 clearly outperformed prior model variants on the radiation oncology multiple-choice benchmark. Although GPT-5 exhibited favorable performance in generating real-world radiation oncology treatment recommendations, correctness ratings indicate room for further improvement. While hallucinations were infrequent, the presence of substantive errors underscores that GPT-5-generated recommendations require rigorous expert oversight before clinical implementation.

Ссылки и действия