Can General-Purpose Omnimodels Compete with Specialists? A Case Study in Medical Image Segmentation

2509.00866v1 eess.IV, cs.AI, cs.CV, cs.LG 2025-09-05
Авторы:

Yizhe Zhang, Qiang Chen, Tao Zhou

Резюме на русском

#### Контекст Современные технологии сегментации медицинских изображений обладают высокой точностью, но часто ориентированы на конкретные задачи, включая сегментацию полипов, ретинальных сосудов и грудных ганглионов. Эти специализированные модели достигают высоких результатов, но не всегда могут обеспечивать универсальное использование в различных задачах. Увеличение сложности задачи может привести к потере точности и уменьшению модели модели, что делает ее менее эффективной. В этом контексте возникает вопрос о потенциале общего назначения в области медицинских изображений, который мог бы установить модели для широкого круга задач. #### Метод Для оценки силы и слабых сторон общего назначения в медицинской сегментации изображений был проведен компаративный анализ. Авторы использовали современную общего назначения модель Gemini 2.5 Pro (также известную как Nano Banana) и сравнили ее с результатами специализированных моделей на задачах сегментации полипов, ретинальных сосудов и грудных ганглионов. Особое внимание было уделено к сценариям со зеро-шотом, когда модели отрабатывают без предварительного обучения на конкретных задачах. Для экспериментов были выделены самые простые и самые сложные случаи, определяемые точностью специализированных моделей. #### Результаты Результаты показали, что на простых случаях специализированные модели показали лучшую точность. Например, в сегментации ретинальных сосудов и полипов специалисты показали себя лучше. Однако на сложных случаях, когда специалисты могут провалиться, omnimodel Gemini 2.5 Pro стабильно демонстрирует высокую точность. Это связано с возможностью модели обрабатывать разнообразие данных и понимать трудные случаи, в которых специалисты терпят неудачу. Также были выявлены ситуации, в которых omnimodel имеет более точное восприятие анатомических фигур, чем специалисты. #### Значимость Эта работа открывает новые перспективы для использования общего назначения моделей в медицинских задачах. Они могут использоваться в качестве средств для усиления робастности моделей, особенно для выполнения сложных задач. Также их можно использовать для генерации анатомических данных, когда специалисты не могут это сделать. Это улучшает целостность медицинских изображений и может повысить точность диагностики. #### Выводы На основе проведенного анализа можно сделать вывод, что omnimodel может значительно повысить робастность системы, особенно на сложных случаях. Однако они еще не могут заменить специалисты во всех случаях. Будущие исследования будут направлены на улучшение точности и развитие моделей, которые сочетают

Abstract

The emergence of powerful, general-purpose omnimodels capable of processing diverse data modalities has raised a critical question: can these ``jack-of-all-trades'' systems perform on par with highly specialized models in knowledge-intensive domains? This work investigates this question within the high-stakes field of medical image segmentation. We conduct a comparative study analyzing the zero-shot performance of a state-of-the-art omnimodel (Gemini 2.5 Pro, the ``Nano Banana'' model) against domain-specific deep learning models on three distinct tasks: polyp (endoscopy), retinal vessel (fundus), and breast tumor segmentation (ultrasound). Our study focuses on performance at the extremes by curating subsets of the ``easiest'' and ``hardest'' cases based on the specialist models' accuracy. Our findings reveal a nuanced and task-dependent landscape. For polyp and breast tumor segmentation, specialist models excel on easy samples, but the omnimodel demonstrates greater robustness on hard samples where specialists fail catastrophically. Conversely, for the fine-grained task of retinal vessel segmentation, the specialist model maintains superior performance across both easy and hard cases. Intriguingly, qualitative analysis suggests omnimodels may possess higher sensitivity, identifying subtle anatomical features missed by human annotators. Our results indicate that while current omnimodels are not yet a universal replacement for specialists, their unique strengths suggest a potential complementary role with specialist models, particularly in enhancing robustness on challenging edge cases.

Ссылки и действия