Capabilities of GPT-5 on Multimodal Medical Reasoning

2508.08224v2 cs.CL, cs.AI 2025-08-14
Авторы:

Shansong Wang, Mingzhe Hu, Qiang Li, Mojtaba Safari, Xiaofeng Yang

Резюме на русском

## Контекст Медицинская оценка и принятие решений часто включают в себя интеграцию различных источников информации: текстовых пациентских анкет, структурированных данных и медицинских изображений. Однако существующие системы часто сталкиваются с проблемами неэффективности и неточности при работе с таким широким спектром данных. Эти ограничения могут приводить к неточности диагноза и подхода к лечению. В этом контексте возникает необходимость в развитии систем, которые могут обеспечивать более точное и совершенное многомодальное разумение, чтобы поддерживать клинические решения. ## Метод В данном исследовании рассматривается GPT-5 как общего назначения многомодального резонер, применяемый в медицинских задачах. Исследование основывается на методологии zero-shot chain-of-thought reasoning, которая позволяет GPT-5 анализировать и сочетать различные виды информации, включая текстовые запросы и визуальные данные. Метод основывается на многоязычных моделях трансформеров и использует несколько бенчмарков, включая MedQA, MedXpertQA, MMLU и VQA-RAD. Эти задачи используются для оценки производительности GPT-5 в разных аспектах медицинского разума, включая текстовый QA (Question Answering) и многомодальный QA. ## Результаты На экспериментальных данных GPT-5 показал выдающиеся результаты по сравнению с базовыми моделями, включая GPT-4о и GPT-5-mini. На MedXpertQA MM GPT-5 улучшил счет по многомодальному разумению на +29.26% по сравнению с GPT-4о, а также превзошел специалистов-клиников на +24.23% в оценке разума и +29.40% в понимании задач. Эти результаты доказывают, что GPT-5 не только достигает совершенства в многомодальном разумении, но и превосходит человеческий эксперт в критически важных задачах. ## Значимость Результаты этого исследования открывают новые возможности для развития систем клинической поддержки решений. GPT-5 может использоваться для улучшения точности диагноза, упрощения процессов принятия решений и повышения эффективности в медицинских приложениях. Такое многомодальное разумение может помочь в клинических ситуациях, где необходимо интегрировать различные данные для точного лечения и предотвращения ошибок в решениях. ## Выводы На основе этих моделей GPT-5 демонстрирует спектр преимуществ в медицинском многомодальном разумении, которые могут быть интегрированы в медицинские системы. Будущие исследования будут сфокусированы на расширении этих возможностей, улучшении производительности и применении в реальных клинических ситуациях.

Abstract

Recent advances in large language models (LLMs) have enabled general-purpose systems to perform increasingly complex domain-specific reasoning without extensive fine-tuning. In the medical domain, decision-making often requires integrating heterogeneous information sources, including patient narratives, structured data, and medical images. This study positions GPT-5 as a generalist multimodal reasoner for medical decision support and systematically evaluates its zero-shot chain-of-thought reasoning performance on both text-based question answering and visual question answering tasks under a unified protocol. We benchmark GPT-5, GPT-5-mini, GPT-5-nano, and GPT-4o-2024-11-20 against standardized splits of MedQA, MedXpertQA (text and multimodal), MMLU medical subsets, USMLE self-assessment exams, and VQA-RAD. Results show that GPT-5 consistently outperforms all baselines, achieving state-of-the-art accuracy across all QA benchmarks and delivering substantial gains in multimodal reasoning. On MedXpertQA MM, GPT-5 improves reasoning and understanding scores by +29.26% and +26.18% over GPT-4o, respectively, and surpasses pre-licensed human experts by +24.23% in reasoning and +29.40% in understanding. In contrast, GPT-4o remains below human expert performance in most dimensions. A representative case study demonstrates GPT-5's ability to integrate visual and textual cues into a coherent diagnostic reasoning chain, recommending appropriate high-stakes interventions. Our results show that, on these controlled multimodal reasoning benchmarks, GPT-5 moves from human-comparable to above human-expert performance. This improvement may substantially inform the design of future clinical decision-support systems.

Ссылки и действия