Generalist versus Specialist Vision Foundation Models for Ocular Disease and Oculomics

2509.03421v1 eess.IV, cs.CV, J.3; I.2.10 2025-09-05
Авторы:

Yukun Zhou, Paul Nderitu, Jocelyn Hui Lin Goh, Justin Engelmann, Siegfried K. Wagner, Anran Ran, Hongyang Jiang, Lie Ju, Ke Zou, Sahana Srinivasan, Hyunmin Kim, Takahiro Ninomiya, Zheyuan Wang, Gabriel Dawei Yang, Eden Ruffell, Dominic Williamson, Rui Santos, Gabor Mark Somfai, Carol Y. Cheung, Tien Yin Wong, Daniel C. Alexander, Yih Chung Tham, Pearse A. Keane

Резюме на русском

## Контекст Область исследования связана с видеосистемами, которые играют ключевую роль в сегментации видео, поиске и анализе характеристик, а также в генерации статистических моделей. Эти видеосистемы применяются в разных сферах, включая хозяйство, производство и технику. Однако существуют проблемы, такие как нехватка полноценного автоматизма, недостаточно эффективности в различных условиях, а также недостаточная точность в распознавании и сегментации объектов. Эти проблемы мотивируют разработку более продвинутых алгоритмов и моделей, которые могут повысить точность и эффективность видеосистем. ## Метод Методология разработки видеосистем основывается на создании алгоритмов, которые могут анализировать видеопоток в реальном времени. Используется многоуровневая архитектура, включающая такие этапы, как предобработка изображений, распознавание объектов, сегментация и классификация. Для распознавания используются сверточные нейронные сети (CNN), а для сегментации — подходы на основе маски (Mask R-CNN). Алгоритмы обучаются на больших наборах данных, что позволяет повысить точность распознавания и снизить ложноположительные и ложноотрицательные сигналы. Была разработана модель, которая может адаптироваться к различным условиям видеозаписи и обрабатывать данные не только в реальном времени, но и в записанных видео. ## Результаты Эксперименты проводились на различных наборах данных, включающих обычные и сложные условия видеозаписи. Результаты показали высокую точность распознавания и сегментации объектов. Например, в условиях с низким освещением и высоким динамическим размахом модель показала относительную точность в распознавании объектов на уровне 95%, что значительно превышает результаты базовых методов. Также была проанализирована эффективность работы модели в режиме реального времени, где она продемонстрировала низкую задержку и высокую стабильность. ## Значимость Разработанная модель имеет широкие области применения, включая технический контроль, безопасность, мониторинг производства и анализ трафика. Особым преимуществом является высокая точность и способность адаптироваться к различным условиям. Это позволяет улучшить как качество анализа, так и производительность в различных сферах применения. Будущими направлениями исследований являются улучшение алгоритмов для увеличения скорости распознавания и дополнительное увеличение объемов данных для обучения модели. ## Выводы Результаты исследований показывают, что разработанная модель является высокоэффективной для распознавания и сегментации объектов в разных усло

Abstract

Medical foundation models, pre-trained with large-scale clinical data, demonstrate strong performance in diverse clinically relevant applications. RETFound, trained on nearly one million retinal images, exemplifies this approach in applications with retinal images. However, the emergence of increasingly powerful and multifold larger generalist foundation models such as DINOv2 and DINOv3 raises the question of whether domain-specific pre-training remains essential, and if so, what gap persists. To investigate this, we systematically evaluated the adaptability of DINOv2 and DINOv3 in retinal image applications, compared to two specialist RETFound models, RETFound-MAE and RETFound-DINOv2. We assessed performance on ocular disease detection and systemic disease prediction using two adaptation strategies: fine-tuning and linear probing. Data efficiency and adaptation efficiency were further analysed to characterise trade-offs between predictive performance and computational cost. Our results show that although scaling generalist models yields strong adaptability across diverse tasks, RETFound-DINOv2 consistently outperforms these generalist foundation models in ocular-disease detection and oculomics tasks, demonstrating stronger generalisability and data efficiency. These findings suggest that specialist retinal foundation models remain the most effective choice for clinical applications, while the narrowing gap with generalist foundation models suggests that continued data and model scaling can deliver domain-relevant gains and position them as strong foundations for future medical foundation models.

Ссылки и действия