Can General-Purpose Omnimodels Compete with Specialists? A Case Study in Medical Image Segmentation
2509.00866v1
eess.IV, cs.AI, cs.CV, cs.LG
2025-09-05
Авторы:
Yizhe Zhang, Qiang Chen, Tao Zhou
Резюме на русском
#### Контекст
Современные технологии сегментации медицинских изображений обладают высокой точностью, но часто ориентированы на конкретные задачи, включая сегментацию полипов, ретинальных сосудов и грудных ганглионов. Эти специализированные модели достигают высоких результатов, но не всегда могут обеспечивать универсальное использование в различных задачах. Увеличение сложности задачи может привести к потере точности и уменьшению модели модели, что делает ее менее эффективной. В этом контексте возникает вопрос о потенциале общего назначения в области медицинских изображений, который мог бы установить модели для широкого круга задач.
#### Метод
Для оценки силы и слабых сторон общего назначения в медицинской сегментации изображений был проведен компаративный анализ. Авторы использовали современную общего назначения модель Gemini 2.5 Pro (также известную как Nano Banana) и сравнили ее с результатами специализированных моделей на задачах сегментации полипов, ретинальных сосудов и грудных ганглионов. Особое внимание было уделено к сценариям со зеро-шотом, когда модели отрабатывают без предварительного обучения на конкретных задачах. Для экспериментов были выделены самые простые и самые сложные случаи, определяемые точностью специализированных моделей.
#### Результаты
Результаты показали, что на простых случаях специализированные модели показали лучшую точность. Например, в сегментации ретинальных сосудов и полипов специалисты показали себя лучше. Однако на сложных случаях, когда специалисты могут провалиться, omnimodel Gemini 2.5 Pro стабильно демонстрирует высокую точность. Это связано с возможностью модели обрабатывать разнообразие данных и понимать трудные случаи, в которых специалисты терпят неудачу. Также были выявлены ситуации, в которых omnimodel имеет более точное восприятие анатомических фигур, чем специалисты.
#### Значимость
Эта работа открывает новые перспективы для использования общего назначения моделей в медицинских задачах. Они могут использоваться в качестве средств для усиления робастности моделей, особенно для выполнения сложных задач. Также их можно использовать для генерации анатомических данных, когда специалисты не могут это сделать. Это улучшает целостность медицинских изображений и может повысить точность диагностики.
#### Выводы
На основе проведенного анализа можно сделать вывод, что omnimodel может значительно повысить робастность системы, особенно на сложных случаях. Однако они еще не могут заменить специалисты во всех случаях. Будущие исследования будут направлены на улучшение точности и развитие моделей, которые сочетают
Abstract
The emergence of powerful, general-purpose omnimodels capable of processing
diverse data modalities has raised a critical question: can these
``jack-of-all-trades'' systems perform on par with highly specialized models in
knowledge-intensive domains? This work investigates this question within the
high-stakes field of medical image segmentation. We conduct a comparative study
analyzing the zero-shot performance of a state-of-the-art omnimodel (Gemini 2.5
Pro, the ``Nano Banana'' model) against domain-specific deep learning models on
three distinct tasks: polyp (endoscopy), retinal vessel (fundus), and breast
tumor segmentation (ultrasound). Our study focuses on performance at the
extremes by curating subsets of the ``easiest'' and ``hardest'' cases based on
the specialist models' accuracy. Our findings reveal a nuanced and
task-dependent landscape. For polyp and breast tumor segmentation, specialist
models excel on easy samples, but the omnimodel demonstrates greater robustness
on hard samples where specialists fail catastrophically. Conversely, for the
fine-grained task of retinal vessel segmentation, the specialist model
maintains superior performance across both easy and hard cases. Intriguingly,
qualitative analysis suggests omnimodels may possess higher sensitivity,
identifying subtle anatomical features missed by human annotators. Our results
indicate that while current omnimodels are not yet a universal replacement for
specialists, their unique strengths suggest a potential complementary role with
specialist models, particularly in enhancing robustness on challenging edge
cases.