The Illusion of Readiness: Stress Testing Large Frontier Models on Multimodal Medical Benchmarks

2509.18234v1 cs.AI, cs.CL, cs.LG 2025-09-25
Авторы:

Yu Gu, Jingjing Fu, Xiaodong Liu, Jeya Maria Jose Valanarasu, Noel Codella, Reuben Tan, Qianchu Liu, Ying Jin, Sheng Zhang, Jinyu Wang, Rui Wang, Lei Song, Guanghui Qin, Naoto Usuyama, Cliff Wong, Cheng Hao, Hohin Lee, Praneeth Sanapathi, Sarah Hilado, Bian Jiang, Javier Alvarez-Valle, Mu Wei, Jianfeng Gao, Eric Horvitz, Matt Lungren, Hoifung Poon, Paul Vozila

Резюме на русском

## Контекст Область исследования связана с оценкой интеллектуальных систем, развивающихся в области медицины. Существуют системы, обладающие высокой точностью на определенных медицинских бенчмарках. Однако, по мнению авторов, этот успех часто связан с использованием тестирования в условиях высокой нагрузки (stress testing), который показывает значительные проблемы со стабильностью и внутренним здравым суждением систем. Недостаток целостности и логичности ответов, к тому же, подрывает доверие к таким системам. Таким образом, целью исследования является подробное изучение этих проблем, чтобы выявить недостатки существующих методов тестирования и развить более солидные критерии оценки. ## Метод Исследование основывается на тщательном анализе шести ведущих моделей машинного обучения, включая GPT-5, с использованием шести различных медицинских бенчмарков. Методология включает в себя широкий спектр экспериментов, включая удаление ключевых компонентов (например, изображений), изменение текстовых запросов, искусственно созданных ответов, а также сравнение результатов с клиническими стандартами. Архитектура оценки включает клинические рубрики, подготовленные специалистами, чтобы обеспечить сбалансированное и квалифицированное оценочное мнение. Таким образом, исследователи могут измерять не только точность, но и глубину понимания и стабильность результатов. ## Результаты Эксперименты показали, что даже лучшие модели часто являются нестабильными, особенно при изменении ключевых условий задачи. Многие модели демонстрируют "shortcut learning", то есть поиск узких путей для решения задач, вместо глубокого знания. Например, некоторые модели дают правильный ответ даже при отсутствии ключевых частей входных данных, таких как изображения, что демонстрирует отсутствие понимания достаточного объема информации. Кроме того, подтверждено, что различные бенчмарки, несмотря на общую тематику, могут измерять разные аспекты, и их результаты вместе не дают полного представления о реальном уровне готовности системы. ## Значимость Результаты имеют важное значение для многих областей, в частности для медицины, где требуется надежная и безопасная интеллектуальная поддержка для клинических решений. Применение полученных результатов может привести к улучшению методов тестирования и разработки более стабильных моделей. Основные преимущества заключаются в том, что исследование обнаружило слабости существующих моделей и выявило недостатки в существующих бенчмарках, что может привести к более тщательной оценке и развити

Abstract

Large frontier models like GPT-5 now achieve top scores on medical benchmarks. But our stress tests tell a different story. Leading systems often guess correctly even when key inputs like images are removed, flip answers under trivial prompt changes, and fabricate convincing yet flawed reasoning. These aren't glitches; they expose how today's benchmarks reward test-taking tricks over medical understanding. We evaluate six flagship models across six widely used benchmarks and find that high leaderboard scores hide brittleness and shortcut learning. Through clinician-guided rubric evaluation, we show that benchmarks vary widely in what they truly measure yet are treated interchangeably, masking failure modes. We caution that medical benchmark scores do not directly reflect real-world readiness. If we want AI to earn trust in healthcare, we must demand more than leaderboard wins and must hold systems accountable for robustness, sound reasoning, and alignment with real medical demands.

Ссылки и действия