Capabilities of GPT-5 on Multimodal Medical Reasoning
2508.08224v1
cs.CL, cs.AI
2025-08-13
Авторы:
Shansong Wang, Mingzhe Hu, Qiang Li, Mojtaba Safari, Xiaofeng Yang
Резюме на русском
#### Контекст
Настоящее исследование фокусируется на расширении возможностей бо LLM (large language models) в области медицинского логического рассуждения. Хотя новейшие LLMs уже демонстрируют высокую эффективность в широком круге общих задач, их возможности в сфере медицины, где необходимо объединение различных типов информации (текстовые данные, знания структурированных баз данных и медицинские изображения), еще требуют значительного повышения. Это исследование показывает, что GPT-5 может стать мощным мультимодальным логическим резолютором для поддержки решений в здравоохранении, исследуя его унифицированную методологию для решения задач вопрошания (QA) с текстовым и мультимодальным форматом.
#### Метод
Главная методология этого исследования заключается в сравнительном анализе зеркальных версий GPT-5 (GPT-5-mini, GPT-5-nano) и GPT-4o-2024-11-20, а также на основе медицинских данных многопромышленных бенчмарков, таких как MedQA, MedXpertQA (текст и мультимодальный формат), MMLU (медицинские подмножества), USMLE (самостоятельная самопроверка) и VQA-RAD. Данные экспериментальные задачи включают цепное мышление (chain-of-thought) в текстовой и мультимодальной области вопрошания. Эталонные методы используются для оценки точности и качества решений GPT-5 в отношении классических бенчмарков в области медицины.
#### Результаты
Результаты опробований показывают, что GPT-5 показывает высокую эффективность во всех тестах в сравнении с другими моделями. На задачах мультимодального вопрошания (MedXpertQA MM), GPT-5 повышает базовые показатели в реализации цепного мышления на +29.62% в реализации и +36.18% в понимании в сравнении с GPT-4o. Улучшения в точности относительно других моделей были заметны во всех базовых тестах. Например, GPT-5 показывает улучшение в +24.23% в решении задач по сравнению с предварительно лицензированными экспертами в медицине на бенчмарке MedXpertQA.
#### Значимость
Выявленные возможности GPT-5 могут иметь значительное значение для развития систем поддержки клинических решений. Здесь указаны перспективы использования GPT-5 как генералистового модели для рендеринга медицинских решений, включая интеграцию текстовых и изображенных сигналов в цельную логическую цепочку. Результаты этих исследований могут способствовать созданию более универсальных, стабильных и эффективных классических систем поддержки клинических решений.
#### Выводы
В итоге, GPT-5 демонстрирует превосходство над другими моделями в мультимодальных задачах вопрошания в области медицины. Он показывает
Abstract
Recent advances in large language models (LLMs) have enabled general-purpose
systems to perform increasingly complex domain-specific reasoning without
extensive fine-tuning. In the medical domain, decision-making often requires
integrating heterogeneous information sources, including patient narratives,
structured data, and medical images. This study positions GPT-5 as a generalist
multimodal reasoner for medical decision support and systematically evaluates
its zero-shot chain-of-thought reasoning performance on both text-based
question answering and visual question answering tasks under a unified
protocol. We benchmark GPT-5, GPT-5-mini, GPT-5-nano, and GPT-4o-2024-11-20
against standardized splits of MedQA, MedXpertQA (text and multimodal), MMLU
medical subsets, USMLE self-assessment exams, and VQA-RAD. Results show that
GPT-5 consistently outperforms all baselines, achieving state-of-the-art
accuracy across all QA benchmarks and delivering substantial gains in
multimodal reasoning. On MedXpertQA MM, GPT-5 improves reasoning and
understanding scores by +29.62% and +36.18% over GPT-4o, respectively, and
surpasses pre-licensed human experts by +24.23% in reasoning and +29.40% in
understanding. In contrast, GPT-4o remains below human expert performance in
most dimensions. A representative case study demonstrates GPT-5's ability to
integrate visual and textual cues into a coherent diagnostic reasoning chain,
recommending appropriate high-stakes interventions. Our results show that, on
these controlled multimodal reasoning benchmarks, GPT-5 moves from
human-comparable to above human-expert performance. This improvement may
substantially inform the design of future clinical decision-support systems.
Ссылки и действия
Дополнительные ресурсы: