Capabilities of GPT-5 on Multimodal Medical Reasoning

2508.08224v1 cs.CL, cs.AI 2025-08-13

Авторы:

Shansong Wang, Mingzhe Hu, Qiang Li, Mojtaba Safari, Xiaofeng Yang

Резюме на русском

#### Контекст Настоящее исследование фокусируется на расширении возможностей бо LLM (large language models) в области медицинского логического рассуждения. Хотя новейшие LLMs уже демонстрируют высокую эффективность в широком круге общих задач, их возможности в сфере медицины, где необходимо объединение различных типов информации (текстовые данные, знания структурированных баз данных и медицинские изображения), еще требуют значительного повышения. Это исследование показывает, что GPT-5 может стать мощным мультимодальным логическим резолютором для поддержки решений в здравоохранении, исследуя его унифицированную методологию для решения задач вопрошания (QA) с текстовым и мультимодальным форматом. #### Метод Главная методология этого исследования заключается в сравнительном анализе зеркальных версий GPT-5 (GPT-5-mini, GPT-5-nano) и GPT-4o-2024-11-20, а также на основе медицинских данных многопромышленных бенчмарков, таких как MedQA, MedXpertQA (текст и мультимодальный формат), MMLU (медицинские подмножества), USMLE (самостоятельная самопроверка) и VQA-RAD. Данные экспериментальные задачи включают цепное мышление (chain-of-thought) в текстовой и мультимодальной области вопрошания. Эталонные методы используются для оценки точности и качества решений GPT-5 в отношении классических бенчмарков в области медицины. #### Результаты Результаты опробований показывают, что GPT-5 показывает высокую эффективность во всех тестах в сравнении с другими моделями. На задачах мультимодального вопрошания (MedXpertQA MM), GPT-5 повышает базовые показатели в реализации цепного мышления на +29.62% в реализации и +36.18% в понимании в сравнении с GPT-4o. Улучшения в точности относительно других моделей были заметны во всех базовых тестах. Например, GPT-5 показывает улучшение в +24.23% в решении задач по сравнению с предварительно лицензированными экспертами в медицине на бенчмарке MedXpertQA. #### Значимость Выявленные возможности GPT-5 могут иметь значительное значение для развития систем поддержки клинических решений. Здесь указаны перспективы использования GPT-5 как генералистового модели для рендеринга медицинских решений, включая интеграцию текстовых и изображенных сигналов в цельную логическую цепочку. Результаты этих исследований могут способствовать созданию более универсальных, стабильных и эффективных классических систем поддержки клинических решений. #### Выводы В итоге, GPT-5 демонстрирует превосходство над другими моделями в мультимодальных задачах вопрошания в области медицины. Он показывает

Abstract

Recent advances in large language models (LLMs) have enabled general-purpose systems to perform increasingly complex domain-specific reasoning without extensive fine-tuning. In the medical domain, decision-making often requires integrating heterogeneous information sources, including patient narratives, structured data, and medical images. This study positions GPT-5 as a generalist multimodal reasoner for medical decision support and systematically evaluates its zero-shot chain-of-thought reasoning performance on both text-based question answering and visual question answering tasks under a unified protocol. We benchmark GPT-5, GPT-5-mini, GPT-5-nano, and GPT-4o-2024-11-20 against standardized splits of MedQA, MedXpertQA (text and multimodal), MMLU medical subsets, USMLE self-assessment exams, and VQA-RAD. Results show that GPT-5 consistently outperforms all baselines, achieving state-of-the-art accuracy across all QA benchmarks and delivering substantial gains in multimodal reasoning. On MedXpertQA MM, GPT-5 improves reasoning and understanding scores by +29.62% and +36.18% over GPT-4o, respectively, and surpasses pre-licensed human experts by +24.23% in reasoning and +29.40% in understanding. In contrast, GPT-4o remains below human expert performance in most dimensions. A representative case study demonstrates GPT-5's ability to integrate visual and textual cues into a coherent diagnostic reasoning chain, recommending appropriate high-stakes interventions. Our results show that, on these controlled multimodal reasoning benchmarks, GPT-5 moves from human-comparable to above human-expert performance. This improvement may substantially inform the design of future clinical decision-support systems.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Capabilities of GPT-5 on Multimodal Medical Reasoning

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

UW-BioNLP at ChemoTimelines 2025: Thinking, Fine-Tuning, and Dictionary-Enhanced...

AdmTree: Compressing Lengthy Context with Adaptive Semantic Trees

SignRoundV2: Closing the Performance Gap in Extremely Low-Bit Post-Training Quan...

Mitigating Catastrophic Forgetting in Target Language Adaptation of LLMs via Sou...

SEAL: Self-Evolving Agentic Learning for Conversational Question Answering over ...

Навигация