Is ChatGPT-5 Ready for Mammogram VQA?
2508.11628v1
cs.CV, cs.AI
2025-08-19
Авторы:
Qiang Li, Shansong Wang, Mingzhe Hu, Mojtaba Safari, Zachary Eidex, Xiaofeng Yang
Резюме на русском
#### Контекст
В последние годы внимание к вопросам превентивного здравоохранения, в том числе скринингу рака молочной железы, существенно прогрессировало. В этой области важная роль отводится задачей визуального вопросования и ответа (VQA) на маммограммы. Эта задача сочетает интерпретацию изображений с клиническим рассуждением и может поддерживать процесс обнаружения рака молочной железы. Однако существующие модели иногда сталкиваются с ограничениями в точности и контекстуальной точности в клинических задачах. Это делает необходимым развитие моделей с более высоким уровнем производительности и точности.
#### Метод
Мы использовали пять моделей GPT-5 и одну модель GPT-4o для систематического оценивания их производительности в задачах VQA на маммограммах. Относительно области применения, мы использовали четыре публичных набора данных: EMBED, InBreast, CMMD и CBIS-DDSM. Обучение и оценка проводились в рамках задач классификации различных аспектов, таких как плотность, дисторсия, массы, кальцификации и малignant (меланома). Для обеспечения сравнительной оценки, мы сравнили результаты моделей с результатами человеческих экспертов.
#### Результаты
Модель GPT-5 показала себя как самая высокопроизводительная модель в задачах классификации плотности, дисторсии, масс и кальцификаций. К примеру, на датасете EMBED модель достигла следующих результатов: 56.8% в классификации плотности, 52.5% в дисторсии, 64.5% в классификации масс, 63.5% в кальцификации и 52.8% в классификации малignant. Однако, несмотря на эти результаты, GPT-5 показала себя хуже биомедицинских моделей, предназначенных специально для таких применений. На датасете InBreast, GPT-5 достиг 36.9% BI-RADS accuracy, 45.9% обнаружения аномалий и 35.0% классификации малignant. На датасете CMMD GPT-5 достиг 32.3% обнаружения аномалий и 55.0% классификации малignant. На CBIS-DDSM GPT-5 показала 69.3% BI-RADS accuracy, 66.0% обнаружения аномалий и 58.2% классификации малignant.
#### Значимость
GPT-5 может быть применена в первичных скринингах и предварительной диагностике, но её производительность недостаточна для применения в высокорисковых клинических средах без дополнительной оптимизации. Несмотря на это, улучшения, достигнутые от GPT-4o до GPT-5, показывают перспективу широкомасштабных общих моделей языка (LLMs) в помощь классическим задачам радиологии.
#### Выводы
Мы показали, что хотя GPT-5 показывает заметные улучшения по сравнению с предыдущими моделями, она ещё не готова для применения в клинических задачах без дополнительной адаптации. Н
Abstract
Mammogram visual question answering (VQA) integrates image interpretation
with clinical reasoning and has potential to support breast cancer screening.
We systematically evaluated the GPT-5 family and GPT-4o model on four public
mammography datasets (EMBED, InBreast, CMMD, CBIS-DDSM) for BI-RADS assessment,
abnormality detection, and malignancy classification tasks. GPT-5 consistently
was the best performing model but lagged behind both human experts and
domain-specific fine-tuned models. On EMBED, GPT-5 achieved the highest scores
among GPT variants in density (56.8%), distortion (52.5%), mass (64.5%),
calcification (63.5%), and malignancy (52.8%) classification. On InBreast, it
attained 36.9% BI-RADS accuracy, 45.9% abnormality detection, and 35.0%
malignancy classification. On CMMD, GPT-5 reached 32.3% abnormality detection
and 55.0% malignancy accuracy. On CBIS-DDSM, it achieved 69.3% BI-RADS
accuracy, 66.0% abnormality detection, and 58.2% malignancy accuracy. Compared
with human expert estimations, GPT-5 exhibited lower sensitivity (63.5%) and
specificity (52.3%). While GPT-5 exhibits promising capabilities for screening
tasks, its performance remains insufficient for high-stakes clinical imaging
applications without targeted domain adaptation and optimization. However, the
tremendous improvements in performance from GPT-4o to GPT-5 show a promising
trend in the potential for general large language models (LLMs) to assist with
mammography VQA tasks.
Ссылки и действия
Дополнительные ресурсы: