Simulating Clinical AI Assistance using Multimodal LLMs: A Case Study in Diabetic Retinopathy

2509.13234v1 cs.AI, cs.CV, cs.HC 2025-09-18
Авторы:

Nadim Barakat, William Lotter

Резюме на русском

#### Контекст Диабетическая ретинопатия (DR) является одной из наиболее распространенных причин слепоты в мире. Для ее диагностики используется фотография фонда глаза, но существующие АИ-системы, одобренные FDA, ограничиваются простыми бинарными рекомендациями (например, референс или нет). Этот ограниченный формат вывода ограничивает доверие к системам среди клинических специалистов и повышает риск упущений диагноза. В этом контексте возникает вопрос о том, какой формат вывода лучше всего повышает эффективность взаимодействия клиниканта с системой AI. Однако определить эффективность разных форматов вывода в разных условиях является сложной задачей, которую трудно проверить в масштабах. В настоящем исследовании мы исследовали возможности многомодальных large language models (MLLMs) для решения этой проблемы. #### Метод Для эмуляции AI-помощника в диагностике DR мы использовали две модели: GPT-4o (общего назначения) и MedGemma (специализированная модель для медицины). Мы провели три эксперимента: 1. **Базовая оценка** — сравнение моделей на двух наборах данных (IDRiD и Messidor-2). 2. **Симуляция AI-помощи** — искусственные предсказания, вводимые в модели, чтобы эмулировать работу AI-системы. 3. **AI-to-AI коллаборация** — использование выводов GPT-4o в качестве ввода для MedGemma и наоборот. Мы использовали различные форматы вывода: от простых бинарных предсказаний до подробных диагностических отчетов. Таким образом, мы проанализировали, какие форматы вывода наиболее эффективны для повышения доверия к системе и улучшения диагностической точности. #### Результаты MedGemma показала лучший базовый результат, выдавая более высокую точность и AUROC по сравнению с GPT-4o. Однако GPT-4o показал высокую специфичность, но с малой чувствительностью. В экспериментах с симуляцией, MedGemma была более устойчивой к ошибкам в вводе, в то время как GPT-4o сильно страдала от неверных вводов. Наконец, в AI-to-AI коллаборации, GPT-4o демонстрировал выдающиеся результаты, когда работал со структурированными и подробными выводами MedGemma. Это указывает на то, что MLLMs могут улучшить циклы диагностики DR, а также служить моделями для эмуляции различных форматов взаимодействия AI с клиникантом. #### Значимость Наши результаты показывают, что MLLMs могут значительно улучшить существующие пайплайны диагностики DR, делая их более точными и доверительными. Модели, такие как MedGemma, могут быть особенно полезны в более низкообеспеченных регионах, где доступ к специалистам ограничен. Более подробные и описательные выводы могут повысить доверие

Abstract

Diabetic retinopathy (DR) is a leading cause of blindness worldwide, and AI systems can expand access to fundus photography screening. Current FDA-cleared systems primarily provide binary referral outputs, where this minimal output may limit clinical trust and utility. Yet, determining the most effective output format to enhance clinician-AI performance is an empirical challenge that is difficult to assess at scale. We evaluated multimodal large language models (MLLMs) for DR detection and their ability to simulate clinical AI assistance across different output types. Two models were tested on IDRiD and Messidor-2: GPT-4o, a general-purpose MLLM, and MedGemma, an open-source medical model. Experiments included: (1) baseline evaluation, (2) simulated AI assistance with synthetic predictions, and (3) actual AI-to-AI collaboration where GPT-4o incorporated MedGemma outputs. MedGemma outperformed GPT-4o at baseline, achieving higher sensitivity and AUROC, while GPT-4o showed near-perfect specificity but low sensitivity. Both models adjusted predictions based on simulated AI inputs, but GPT-4o's performance collapsed with incorrect ones, whereas MedGemma remained more stable. In actual collaboration, GPT-4o achieved strong results when guided by MedGemma's descriptive outputs, even without direct image access (AUROC up to 0.96). These findings suggest MLLMs may improve DR screening pipelines and serve as scalable simulators for studying clinical AI assistance across varying output configurations. Open, lightweight models such as MedGemma may be especially valuable in low-resource settings, while descriptive outputs could enhance explainability and clinician trust in clinical workflows.

Ссылки и действия