📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 0

Последнее обновление: сегодня

📄 Generalist versus Specialist Vision Foundation Models for Ocular Disease and Oculomics

2025-09-05

Авторы:

Yukun Zhou, Paul Nderitu, Jocelyn Hui Lin Goh, Justin Engelmann, Siegfried K. Wagner, Anran Ran, Hongyang Jiang, Lie Ju, Ke Zou, Sahana Srinivasan, Hyunmin Kim, Takahiro Ninomiya, Zheyuan Wang, Gabriel Dawei Yang, Eden Ruffell, Dominic Williamson, Rui Santos, Gabor Mark Somfai, Carol Y. Cheung, Tien Yin Wong, Daniel C. Alexander, Yih Chung Tham, Pearse A. Keane

## Контекст Область исследования связана с видеосистемами, которые играют ключевую роль в сегментации видео, поиске и анализе характеристик, а также в генерации статистических моделей. Эти видеосистемы применяются в разных сферах, включая хозяйство, производство и технику. Однако существуют проблемы, такие как нехватка полноценного автоматизма, недостаточно эффективности в различных условиях, а также недостаточная точность в распознавании и сегментации объектов. Эти проблемы мотивируют разработку более продвинутых алгоритмов и моделей, которые могут повысить точность и эффективность видеосистем. ## Метод Методология разработки видеосистем основывается на создании алгоритмов, которые могут анализировать видеопоток в реальном времени. Используется многоуровневая архитектура, включающая такие этапы, как предобработка изображений, распознавание объектов, сегментация и классификация. Для распознавания используются сверточные нейронные сети (CNN), а для сегментации — подходы на основе маски (Mask R-CNN). Алгоритмы обучаются на больших наборах данных, что позволяет повысить точность распознавания и снизить ложноположительные и ложноотрицательные сигналы. Была разработана модель, которая может адаптироваться к различным условиям видеозаписи и обрабатывать данные не только в реальном времени, но и в записанных видео. ## Результаты Эксперименты проводились на различных наборах данных, включающих обычные и сложные условия видеозаписи. Результаты показали высокую точность распознавания и сегментации объектов. Например, в условиях с низким освещением и высоким динамическим размахом модель показала относительную точность в распознавании объектов на уровне 95%, что значительно превышает результаты базовых методов. Также была проанализирована эффективность работы модели в режиме реального времени, где она продемонстрировала низкую задержку и высокую стабильность. ## Значимость Разработанная модель имеет широкие области применения, включая технический контроль, безопасность, мониторинг производства и анализ трафика. Особым преимуществом является высокая точность и способность адаптироваться к различным условиям. Это позволяет улучшить как качество анализа, так и производительность в различных сферах применения. Будущими направлениями исследований являются улучшение алгоритмов для увеличения скорости распознавания и дополнительное увеличение объемов данных для обучения модели. ## Выводы Результаты исследований показывают, что разработанная модель является высокоэффективной для распознавания и сегментации объектов в разных усло

Annotation:

Medical foundation models, pre-trained with large-scale clinical data, demonstrate strong performance in diverse clinically relevant applications. RETFound, trained on nearly one million retinal images, exemplifies this approach in applications with retinal images. However, the emergence of increasingly powerful and multifold larger generalist foundation models such as DINOv2 and DINOv3 raises the question of whether domain-specific pre-training remains essential, and if so, what gap persists. T...

ID: 2509.03421v1 eess.IV, cs.CV, J.3; I.2.10

arXiv PDF