Is ChatGPT-5 Ready for Mammogram VQA?

2508.11628v1 cs.CV, cs.AI 2025-08-19
Авторы:

Qiang Li, Shansong Wang, Mingzhe Hu, Mojtaba Safari, Zachary Eidex, Xiaofeng Yang

Резюме на русском

#### Контекст В последние годы внимание к вопросам превентивного здравоохранения, в том числе скринингу рака молочной железы, существенно прогрессировало. В этой области важная роль отводится задачей визуального вопросования и ответа (VQA) на маммограммы. Эта задача сочетает интерпретацию изображений с клиническим рассуждением и может поддерживать процесс обнаружения рака молочной железы. Однако существующие модели иногда сталкиваются с ограничениями в точности и контекстуальной точности в клинических задачах. Это делает необходимым развитие моделей с более высоким уровнем производительности и точности. #### Метод Мы использовали пять моделей GPT-5 и одну модель GPT-4o для систематического оценивания их производительности в задачах VQA на маммограммах. Относительно области применения, мы использовали четыре публичных набора данных: EMBED, InBreast, CMMD и CBIS-DDSM. Обучение и оценка проводились в рамках задач классификации различных аспектов, таких как плотность, дисторсия, массы, кальцификации и малignant (меланома). Для обеспечения сравнительной оценки, мы сравнили результаты моделей с результатами человеческих экспертов. #### Результаты Модель GPT-5 показала себя как самая высокопроизводительная модель в задачах классификации плотности, дисторсии, масс и кальцификаций. К примеру, на датасете EMBED модель достигла следующих результатов: 56.8% в классификации плотности, 52.5% в дисторсии, 64.5% в классификации масс, 63.5% в кальцификации и 52.8% в классификации малignant. Однако, несмотря на эти результаты, GPT-5 показала себя хуже биомедицинских моделей, предназначенных специально для таких применений. На датасете InBreast, GPT-5 достиг 36.9% BI-RADS accuracy, 45.9% обнаружения аномалий и 35.0% классификации малignant. На датасете CMMD GPT-5 достиг 32.3% обнаружения аномалий и 55.0% классификации малignant. На CBIS-DDSM GPT-5 показала 69.3% BI-RADS accuracy, 66.0% обнаружения аномалий и 58.2% классификации малignant. #### Значимость GPT-5 может быть применена в первичных скринингах и предварительной диагностике, но её производительность недостаточна для применения в высокорисковых клинических средах без дополнительной оптимизации. Несмотря на это, улучшения, достигнутые от GPT-4o до GPT-5, показывают перспективу широкомасштабных общих моделей языка (LLMs) в помощь классическим задачам радиологии. #### Выводы Мы показали, что хотя GPT-5 показывает заметные улучшения по сравнению с предыдущими моделями, она ещё не готова для применения в клинических задачах без дополнительной адаптации. Н

Abstract

Mammogram visual question answering (VQA) integrates image interpretation with clinical reasoning and has potential to support breast cancer screening. We systematically evaluated the GPT-5 family and GPT-4o model on four public mammography datasets (EMBED, InBreast, CMMD, CBIS-DDSM) for BI-RADS assessment, abnormality detection, and malignancy classification tasks. GPT-5 consistently was the best performing model but lagged behind both human experts and domain-specific fine-tuned models. On EMBED, GPT-5 achieved the highest scores among GPT variants in density (56.8%), distortion (52.5%), mass (64.5%), calcification (63.5%), and malignancy (52.8%) classification. On InBreast, it attained 36.9% BI-RADS accuracy, 45.9% abnormality detection, and 35.0% malignancy classification. On CMMD, GPT-5 reached 32.3% abnormality detection and 55.0% malignancy accuracy. On CBIS-DDSM, it achieved 69.3% BI-RADS accuracy, 66.0% abnormality detection, and 58.2% malignancy accuracy. Compared with human expert estimations, GPT-5 exhibited lower sensitivity (63.5%) and specificity (52.3%). While GPT-5 exhibits promising capabilities for screening tasks, its performance remains insufficient for high-stakes clinical imaging applications without targeted domain adaptation and optimization. However, the tremendous improvements in performance from GPT-4o to GPT-5 show a promising trend in the potential for general large language models (LLMs) to assist with mammography VQA tasks.

Ссылки и действия