Performance of GPT-5 in Brain Tumor MRI Reasoning

2508.10865v1 cs.CV, cs.AI 2025-08-16
Авторы:

Mojtaba Safari, Shansong Wang, Mingzhe Hu, Zach Eidex, Qiang Li, Xiaofeng Yang

Резюме на русском

## Контекст Классификация типов мозговых злокачественных опухолей на основе магнитных резонансных изображений (MRI) является критически важной задачей в нейро-онкологии. Точное различение этих типов позволяет выбрать наиболее эффективные методы лечения. Несмотря на развитие методов компьютерного зрения, существуют ограничения в их точности и надёжности. Недавние успехи в области больших языковых моделей (LLM) позволили применять визуальный вопросно-ответной подход (VQA), который объединяет интерпретацию изображений с натуральным языковым рассуждением. Целью данного исследования является оценка потенциала новейших моделей LLM, таких как GPT-4o, GPT-5-nano, GPT-5-mini и GPT-5, в задаче визуального рассуждения о мозговых опухолях. ## Метод Для исследования был создан набор данных, основанный на трёх Brain Tumor Segmentation (BraTS) датасетах: glioblastoma (GLI), meningioma (MEN) и brain metastases (MET). Каждый случай включал многопоследовательные MRI-снимки (три плана) и структурированные клинические признаки, преобразованные в вопросы и ответы в формате VQA. Модели GPT-4o, GPT-5-nano, GPT-5-mini и GPT-5 были применены в "цепочном" режиме рассуждения (chain-of-thought), не имея предварительного обучения на этом датасете. Их успешность оценивалась через достигнутую точность в решении визуальных и рассужденных задач. ## Результаты Количество сценариев, протестированных на каждой модели, составило 150. Наивысшую макро-среднюю точность показала GPT-5-mini (44.19%), следуя за ней GPT-5 (43.71%), GPT-4o (41.49%) и GPT-5-nano (35.85%). Точность различалась в зависимости от типа опухоли. Таким образом, GPT-5-mini и GPT-5 достигли самых высоких результатов, но не совпали с клиническими стандартами точности. ## Значимость Результаты этого исследования показывают, что модели GPT-5 могут обеспечить среднюю точность в нейро-онкологических задачах VQA, но не достигают уровня достоверности, необходимого для клинического применения. Более того, модели показали разное поведение в зависимости от типа опухоли, что может указывать на нужду в дополнительной специализированной обучении. Таким образом, данное исследование способствует развитию ИИ в нейро-онкологии, но также выделяет необходимость дальнейших исследований для достижения более высокой достоверности. ## Выводы Когда-либо GPT-5-family модели могут показать среднюю точность в задаче визуального рассуждения о мозговых опухолях, но не достигают клинически приемлемого уровня достоверности. Будущие исследования должны сфокусироваться на улучшении точности, вк

Abstract

Accurate differentiation of brain tumor types on magnetic resonance imaging (MRI) is critical for guiding treatment planning in neuro-oncology. Recent advances in large language models (LLMs) have enabled visual question answering (VQA) approaches that integrate image interpretation with natural language reasoning. In this study, we evaluated GPT-4o, GPT-5-nano, GPT-5-mini, and GPT-5 on a curated brain tumor VQA benchmark derived from 3 Brain Tumor Segmentation (BraTS) datasets - glioblastoma (GLI), meningioma (MEN), and brain metastases (MET). Each case included multi-sequence MRI triplanar mosaics and structured clinical features transformed into standardized VQA items. Models were assessed in a zero-shot chain-of-thought setting for accuracy on both visual and reasoning tasks. Results showed that GPT-5-mini achieved the highest macro-average accuracy (44.19%), followed by GPT-5 (43.71%), GPT-4o (41.49%), and GPT-5-nano (35.85%). Performance varied by tumor subtype, with no single model dominating across all cohorts. These findings suggest that GPT-5 family models can achieve moderate accuracy in structured neuro-oncological VQA tasks, but not at a level acceptable for clinical use.

Ссылки и действия