Simulating Clinical AI Assistance using Multimodal LLMs: A Case Study in Diabetic Retinopathy
2509.13234v1
cs.AI, cs.CV, cs.HC
2025-09-18
Авторы:
Nadim Barakat, William Lotter
Резюме на русском
#### Контекст
Диабетическая ретинопатия (DR) является одной из наиболее распространенных причин слепоты в мире. Для ее диагностики используется фотография фонда глаза, но существующие АИ-системы, одобренные FDA, ограничиваются простыми бинарными рекомендациями (например, референс или нет). Этот ограниченный формат вывода ограничивает доверие к системам среди клинических специалистов и повышает риск упущений диагноза. В этом контексте возникает вопрос о том, какой формат вывода лучше всего повышает эффективность взаимодействия клиниканта с системой AI. Однако определить эффективность разных форматов вывода в разных условиях является сложной задачей, которую трудно проверить в масштабах. В настоящем исследовании мы исследовали возможности многомодальных large language models (MLLMs) для решения этой проблемы.
#### Метод
Для эмуляции AI-помощника в диагностике DR мы использовали две модели: GPT-4o (общего назначения) и MedGemma (специализированная модель для медицины). Мы провели три эксперимента:
1. **Базовая оценка** — сравнение моделей на двух наборах данных (IDRiD и Messidor-2).
2. **Симуляция AI-помощи** — искусственные предсказания, вводимые в модели, чтобы эмулировать работу AI-системы.
3. **AI-to-AI коллаборация** — использование выводов GPT-4o в качестве ввода для MedGemma и наоборот.
Мы использовали различные форматы вывода: от простых бинарных предсказаний до подробных диагностических отчетов. Таким образом, мы проанализировали, какие форматы вывода наиболее эффективны для повышения доверия к системе и улучшения диагностической точности.
#### Результаты
MedGemma показала лучший базовый результат, выдавая более высокую точность и AUROC по сравнению с GPT-4o. Однако GPT-4o показал высокую специфичность, но с малой чувствительностью. В экспериментах с симуляцией, MedGemma была более устойчивой к ошибкам в вводе, в то время как GPT-4o сильно страдала от неверных вводов. Наконец, в AI-to-AI коллаборации, GPT-4o демонстрировал выдающиеся результаты, когда работал со структурированными и подробными выводами MedGemma. Это указывает на то, что MLLMs могут улучшить циклы диагностики DR, а также служить моделями для эмуляции различных форматов взаимодействия AI с клиникантом.
#### Значимость
Наши результаты показывают, что MLLMs могут значительно улучшить существующие пайплайны диагностики DR, делая их более точными и доверительными. Модели, такие как MedGemma, могут быть особенно полезны в более низкообеспеченных регионах, где доступ к специалистам ограничен. Более подробные и описательные выводы могут повысить доверие
Abstract
Diabetic retinopathy (DR) is a leading cause of blindness worldwide, and AI
systems can expand access to fundus photography screening. Current FDA-cleared
systems primarily provide binary referral outputs, where this minimal output
may limit clinical trust and utility. Yet, determining the most effective
output format to enhance clinician-AI performance is an empirical challenge
that is difficult to assess at scale. We evaluated multimodal large language
models (MLLMs) for DR detection and their ability to simulate clinical AI
assistance across different output types. Two models were tested on IDRiD and
Messidor-2: GPT-4o, a general-purpose MLLM, and MedGemma, an open-source
medical model. Experiments included: (1) baseline evaluation, (2) simulated AI
assistance with synthetic predictions, and (3) actual AI-to-AI collaboration
where GPT-4o incorporated MedGemma outputs. MedGemma outperformed GPT-4o at
baseline, achieving higher sensitivity and AUROC, while GPT-4o showed
near-perfect specificity but low sensitivity. Both models adjusted predictions
based on simulated AI inputs, but GPT-4o's performance collapsed with incorrect
ones, whereas MedGemma remained more stable. In actual collaboration, GPT-4o
achieved strong results when guided by MedGemma's descriptive outputs, even
without direct image access (AUROC up to 0.96). These findings suggest MLLMs
may improve DR screening pipelines and serve as scalable simulators for
studying clinical AI assistance across varying output configurations. Open,
lightweight models such as MedGemma may be especially valuable in low-resource
settings, while descriptive outputs could enhance explainability and clinician
trust in clinical workflows.
Ссылки и действия
Дополнительные ресурсы: