The Illusion of Readiness: Stress Testing Large Frontier Models on Multimodal Medical Benchmarks
2509.18234v1
cs.AI, cs.CL, cs.LG
2025-09-25
Авторы:
Yu Gu, Jingjing Fu, Xiaodong Liu, Jeya Maria Jose Valanarasu, Noel Codella, Reuben Tan, Qianchu Liu, Ying Jin, Sheng Zhang, Jinyu Wang, Rui Wang, Lei Song, Guanghui Qin, Naoto Usuyama, Cliff Wong, Cheng Hao, Hohin Lee, Praneeth Sanapathi, Sarah Hilado, Bian Jiang, Javier Alvarez-Valle, Mu Wei, Jianfeng Gao, Eric Horvitz, Matt Lungren, Hoifung Poon, Paul Vozila
Резюме на русском
## Контекст
Область исследования связана с оценкой интеллектуальных систем, развивающихся в области медицины. Существуют системы, обладающие высокой точностью на определенных медицинских бенчмарках. Однако, по мнению авторов, этот успех часто связан с использованием тестирования в условиях высокой нагрузки (stress testing), который показывает значительные проблемы со стабильностью и внутренним здравым суждением систем. Недостаток целостности и логичности ответов, к тому же, подрывает доверие к таким системам. Таким образом, целью исследования является подробное изучение этих проблем, чтобы выявить недостатки существующих методов тестирования и развить более солидные критерии оценки.
## Метод
Исследование основывается на тщательном анализе шести ведущих моделей машинного обучения, включая GPT-5, с использованием шести различных медицинских бенчмарков. Методология включает в себя широкий спектр экспериментов, включая удаление ключевых компонентов (например, изображений), изменение текстовых запросов, искусственно созданных ответов, а также сравнение результатов с клиническими стандартами. Архитектура оценки включает клинические рубрики, подготовленные специалистами, чтобы обеспечить сбалансированное и квалифицированное оценочное мнение. Таким образом, исследователи могут измерять не только точность, но и глубину понимания и стабильность результатов.
## Результаты
Эксперименты показали, что даже лучшие модели часто являются нестабильными, особенно при изменении ключевых условий задачи. Многие модели демонстрируют "shortcut learning", то есть поиск узких путей для решения задач, вместо глубокого знания. Например, некоторые модели дают правильный ответ даже при отсутствии ключевых частей входных данных, таких как изображения, что демонстрирует отсутствие понимания достаточного объема информации. Кроме того, подтверждено, что различные бенчмарки, несмотря на общую тематику, могут измерять разные аспекты, и их результаты вместе не дают полного представления о реальном уровне готовности системы.
## Значимость
Результаты имеют важное значение для многих областей, в частности для медицины, где требуется надежная и безопасная интеллектуальная поддержка для клинических решений. Применение полученных результатов может привести к улучшению методов тестирования и разработки более стабильных моделей. Основные преимущества заключаются в том, что исследование обнаружило слабости существующих моделей и выявило недостатки в существующих бенчмарках, что может привести к более тщательной оценке и развити
Abstract
Large frontier models like GPT-5 now achieve top scores on medical
benchmarks. But our stress tests tell a different story. Leading systems often
guess correctly even when key inputs like images are removed, flip answers
under trivial prompt changes, and fabricate convincing yet flawed reasoning.
These aren't glitches; they expose how today's benchmarks reward test-taking
tricks over medical understanding. We evaluate six flagship models across six
widely used benchmarks and find that high leaderboard scores hide brittleness
and shortcut learning. Through clinician-guided rubric evaluation, we show that
benchmarks vary widely in what they truly measure yet are treated
interchangeably, masking failure modes. We caution that medical benchmark
scores do not directly reflect real-world readiness. If we want AI to earn
trust in healthcare, we must demand more than leaderboard wins and must hold
systems accountable for robustness, sound reasoning, and alignment with real
medical demands.
Ссылки и действия
Дополнительные ресурсы: