📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 AI-Driven Radiology Report Generation for Traumatic Brain Injuries

2025-10-11

Авторы:

Riadh Bouslimi, Houda Trabelsi, Wahiba Ben Abdssalem Karaa, Hana Hedhli

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Traumatic brain injuries present significant diagnostic challenges in emergency medicine, where the timely interpretation of medical images is crucial for patient outcomes. In this paper, we propose a novel AI-based approach for automatic radiology report generation tailored to cranial trauma cases. Our model integrates an AC-BiFPN with a Transformer architecture to capture and process complex medical imaging data such as CT and MRI scans. The AC-BiFPN extracts multi-scale features, enabling the...

ID: 2510.08498v1 eess.IV, cs.AI, cs.CV, cs.LG, 68T07, 68U10, I.2.10; I.2.7; I.4.5

arXiv PDF

📄 S$^3$F-Net: A Multi-Modal Approach to Medical Image Classification via Spatial-Spectral Summarizer Fusion Network

2025-10-01

Авторы:

Md. Saiful Bari Siddiqui, Mohammed Imamul Hassan Bhuiyan

#### Контекст Классификация медицинских изображений является ключевым заданием в области медицинского искусственного интеллекта, так как она позволяет выявлять ранние признаки патологий, улучшая тем самым прогностические и лечебные возможности. Однако существующие подходы, основанные на Convolutional Neural Networks (CNNs), часто ограничиваются пространственными функциями и неэффективны в сфере глобальных изображений. Значительная часть информации в изображениях находится в частотном домене, однако эти факторы недостаточно учитываются в существующих методах. Это влечет за собой нужду в развитии подходов, которые могут эффективно объединить пространственные и частотные функции для повышения точности и обобщаемости. #### Метод Мы предлагаем **S$^3$F-Net** — двухветвный фреймворк, который способен одновременно извлекать пространственные и частотные признаки. Основным компонентом является **SpectraNet**, легковесная сеть, которая применяет **SpectralFilter**, основанный на теореме Фурье. Он преобразует изображение в частотный домен с помощью фильтров, сгенерированных с помощью обучения. Эти фильтры быстро охватывают всю область входного изображения, позволяя SpectraNet эффективно извлекать частотные признаки. Далее, **Bilinear Fusion** или **Concatenation Fusion** объединяют пространственные и частотные данные, улучшая понимание взаимосвязей между ними. Эта архитектура позволяет S$^3$F-Net эффективно работать на разных медицинских изображениях. #### Результаты Мы проверили S$^3$F-Net на четырёх наборах данных медицинских изображений, включая типовые модальности, такие как рентгеновские снимки и маркерные изображения. Наш фреймворк показал существенные улучшения в точности классификации по сравнению с лучшими существующими моделями. На BRISC2025-dataset S$^3$F-Net достиг 98.76%, став соревновательным по результатам с новыми достижениями в сфере. На Chest X-Ray Pneumonia данная модель показала 93.11%, превосходя другие модели. Дополнительные анализы показали, что S$^3$F-Net динамически регулирует свой подход в зависимости от характера патологии, что демонстрирует высокую обобщаемость и осмысленность. #### Значимость Этот подход может использоваться в различных медицинских применениях, включая раннее выявление заболеваний, оценку течения терапии и создание инструментов для помощи врачам. Основные преимущества S$^3$F-Net заключаются в его мощности и обобщаемости, способности эффективно объединять глобальные частотные и пространственные признаки. Это может привести к значительным улучшениям в сфере диагностики и помочь в развитии новых ме

Annotation:

Convolutional Neural Networks have become a cornerstone of medical image analysis due to their proficiency in learning hierarchical spatial features. However, this focus on a single domain is inefficient at capturing global, holistic patterns and fails to explicitly model an image's frequency-domain characteristics. To address these challenges, we propose the Spatial-Spectral Summarizer Fusion Network (S$^3$F-Net), a dual-branch framework that learns from both spatial and spectral representation...

ID: 2509.23442v1 eess.IV, cs.AI, cs.CV, cs.LG, eess.SP

arXiv PDF

📄 MOIS-SAM2: Exemplar-based Segment Anything Model 2 for multilesion interactive segmentation of neurofibromas in whole-body MRI

2025-09-25

Авторы:

Georgii Kolokolnikov, Marie-Lena Schmalhofer, Sophie Goetz, Lennart Well, Said Farschtschi, Victor-Felix Mautner, Inka Ristow, Rene Werner

```## Контекст Нейрофиброматоз типа 1 (NF1) — это генетическое заболевание, обусловленное многочисленными генетическими изменениями в гене NF1, в результате которых образуется большое количество нейрофибром (NF). Нейрофибромы — это мягкие тканевые опухоли, которые могут расти во всех частях тела, включая кожу, нервную систему и другие органы. Выявление и мониторинг NF во время лечения является ключевым аспектом лечения NF1. Тотальная магнитно-резонансная импульсия (WB-MRI) является клиническим стандартом для выявления и длительного наблюдения за ростом NF. Однако существующие методы интерактивной сегментации не могут эффективно обрабатывать многочисленные NF на WB-MRI с высокой точностью и масштабом. В данном исследовании предлагается новый подход, называемый MOIS-SAM2, который расширяет предыдущую модель Segment Anything Model 2 (SAM2) для многообъектной интерактивной сегментации NF на WB-MRI. Модель MOIS-SAM2 предназначена для решения проблемы схожести с экспертными методами и масштабируемости. ```

Annotation:

Background and Objectives: Neurofibromatosis type 1 is a genetic disorder characterized by the development of numerous neurofibromas (NFs) throughout the body. Whole-body MRI (WB-MRI) is the clinical standard for detection and longitudinal surveillance of NF tumor growth. Existing interactive segmentation methods fail to combine high lesion-wise precision with scalability to hundreds of lesions. This study proposes a novel interactive segmentation model tailored to this challenge. Methods: We ...

ID: 2509.19277v2 eess.IV, cs.AI, cs.CV, cs.LG

arXiv PDF

📄 Recent Advancements in Microscopy Image Enhancement using Deep Learning: A Survey

2025-09-22

Авторы:

Debasish Dutta, Neeharika Sonowal, Risheraj Barauh, Deepjyoti Chetia, Sanjib Kr Kalita

## Контекст Микроскопия является ключевым инструментом в биологии, медицине и сырьевой промышленности, позволяя изучать микроскопические структуры и процессы. Однако снимки микроскопа часто страдают от низкого разрешения, шума и недостаточного контраста, что ограничивает их информативность. Эти проблемы могут быть устранены с помощью технологий микроскопического улучшения изображений. Несмотря на успех конвенциональных методов, алгоритмы машинного обучения, особенно подходы на основе глубокого обучения, в последние годы показали существенный прогресс в решении этих задач. Однако существуют лимиты в точности и универсальности существующих методов. Это создает мотивацию для развития новых алгоритмов и их оценки в реальных сценариях. ## Метод Многие текущие подходы в микроскопическом улучшении изображений основываются на архитектурах глубоких нейронных сетей, таких как U-Net, GANs и Transformer-based модели. Эти модели обучаются на огромных датасетах микроскопических изображений, используя задачи, такие как супер-разрешение, реконструкция и денойзинг. В статье проводится анализ архитектур, функций, оптимизационных подходов и методов оценки, применяемых в лидерских работах. Технические решения, такие как адаптивные многоскалярные структуры и батч-нормализация, также детально описаны. Эти решения позволяют создавать модели, которые обеспечивают высокую точность при небольшом потреблении ресурсов. ## Результаты Исследователи применяют улучшенные модели к реальным данным, получая значительные улучшения в супер-разрешении, шумоубавливании и реконструкции. Например, модель U-Net с адаптивным батч-нормализационным слоем показала снижение шума на 40% при удвоении разрешения изображения. Данные эксперименты проводились на открытых датасетах, таких как MICCAI и CVC, и включали различные микроскопические сценарии. Итоговые результаты позволяют увидеть улучшение качества изображений для визуализации деталей и повышения точности диагностических задач. ## Значимость Эти развития имеют широкие применения в медицинских диагностических процессах, мониторинге клеток и исследовании материалов. Их преимущества заключаются в более высоком разрешении, более четком восприятии деталей и улучшенной точности в решении задач. Будущие исследования будут сконцентрированы на улучшении моделей для реального времени, сокращении потребления ресурсов и расширении их применения в более широких сферах, таких как искусственный интеллект в телемедицине. ## Выводы Научная команда ус

Annotation:

Microscopy image enhancement plays a pivotal role in understanding the details of biological cells and materials at microscopic scales. In recent years, there has been a significant rise in the advancement of microscopy image enhancement, specifically with the help of deep learning methods. This survey paper aims to provide a snapshot of this rapidly growing state-of-the-art method, focusing on its evolution, applications, challenges, and future directions. The core discussions take place around...

ID: 2509.15363v1 eess.IV, cs.AI, cs.CV, cs.LG

arXiv PDF

📄 MEGAN: Mixture of Experts for Robust Uncertainty Estimation in Endoscopy Videos

2025-09-18

Авторы:

Damola Agbelese, Krishna Chaitanya, Pushpak Pati, Chaitanya Parmar, Pooya Mobadersany, Shreyas Fadnavis, Lindsey Surace, Shadi Yarandi, Louis R. Ghanem, Molly Lucas, Tommaso Mansi, Oana Gabriela Cula, Pablo F. Damasceno, Kristopher Standish

#### Контекст В области медицинского искусственного интеллекта (МИИ), надежный кванторный анализ (Uncertainty Quantification, UQ) является ключевым для обеспечения надежности и качества результатов. Особенно это актуально при оценке заболеваний, таких как ульцерозная колитис (Ulcerative Colitis, UC), где интервальная вариативность между экспертами является распространенной проблемой. Традиционные методы, такие как Monte Carlo (MC) Dropout и Deep Ensembles (DE), хотя и эффективны для UQ, часто основываются на аннотациях от одного эксперта, что недостаточно учитывает эту вариативность. #### Метод Мы предлагаем MEGAN (Mixture of Experts for Robust Uncertainty Estimation) — сеть, основанную на многоэкспертной модели Evidential Deep Learning (EDL). Эта модель объединяет несколько версий МОД, каждая из которых обучалась на разных аннотационных источниках, отражающих вариативность между экспертами. Гаттинг-сеть MEGAN оптимально объединяет эти модели, уменьшая суммарные ошибки и улучшая калибровку результатов. Наша архитектура позволяет объединять множество "экспертов" с разными источниками данных, что обеспечивает разрешение проблемы вариативности. #### Результаты Мы провели эксперименты на корпусе видео endoscopy для оценки серьезности UC по Mayo Endoscopic Subscore (MES). Результаты показали, что MEGAN превышает традиционные методы: F1-score улучшился на 3.5%, а Expected Calibration Error (ECE) сократился на 30.5%. Модель также позволила установить приоритеты при выборе образцов для аннотации, что может существенно снизить нагрузку на экспертов и улучшить эффективность интерпретации данных. #### Значимость MEGAN оказалась эффективной в области UC-диагностики, но её принципы могут быть распространены на другие медицинские задачи, где важна точная оценка неуверенности. Важность MEGAN также заключается в снижении количества необходимых аннотаций, что сокращает время и ресурсы, необходимые для работы экспертов. #### Выводы Мы доказали, что MEGAN превосходит традиционные методы в некоторых аспектах UQ в медицинских видео. Будущие исследования будут направлены на расширение модели MEGAN для обработки более сложных задач и учета дополнительных факторов, таких как географическая и историческая вариативность между экспертами.

Annotation:

Reliable uncertainty quantification (UQ) is essential in medical AI. Evidential Deep Learning (EDL) offers a computationally efficient way to quantify model uncertainty alongside predictions, unlike traditional methods such as Monte Carlo (MC) Dropout and Deep Ensembles (DE). However, all these methods often rely on a single expert's annotations as ground truth for model training, overlooking the inter-rater variability in healthcare. To address this issue, we propose MEGAN, a Multi-Expert Gatin...

ID: 2509.12772v1 eess.IV, cs.AI, cs.CV, cs.LG

arXiv PDF

📄 Branched Broomrape Detection in Tomato Farms Using Satellite Imagery and Time-Series Analysis

2025-09-17

Авторы:

Mohammadreza Narimani, Alireza Pourreza, Ali Moghimi, Parastoo Farajpoor, Hamid Jafarbiglu, Mohsen Mesgaran

## Контекст Branched broomrape (Phelipanche ramosa (L.) Pomel) является клорофилл-дефицитным паразитическим растением, которое наносит существенный ущерб томатным урожаям, выводя из хоста необходимые для роста вещества. Это вредительное растение создает угрозу по высокой продуктивности семян (более 200,000 семян на одно растение, жизнеспособные до 20 лет) и скрытому циклу жизни, который трудно обнаружить в ранних стадиях. Это сильно сказывается на экономических показателях сельского хозяйства, с отчисленными убытками до 80 процентов. Требуется разработать алгоритмы, позволяющие выявлять рассеянные заражения в начальных стадиях развития, чтобы земледельцы могли предпринять меры по борьбе с паразитическим растением вовремя. ## Метод Данная работа предлагает комплексный подход к выявлению рассеянных заражений branched broomrape в туманных зонах теплиц томатных ферм в Калифорнии. Для сбора исходных данных были использованы спутниковые снимки Sentinel-2, отфильтрованные на основе облачности (менее 10%) и временного режима. Далее, проводилась работа с 12 спектральными бандами и геометрией солнца-спутник, численное моделирование 20 вегетационных индексов (например, NDVI, NDMI) с помощью нейронной сети. Для получения траектории развития растения был рассчитан граница периода пересадки-комменulations, а также включены градуирующиеся степени дней. Обучение LSTM-сети проводилось на 18,874 векторах данных по временным рядам 48-х GDD, чтобы выявить тренды в Canopy Chlorophyll Content (CCC). Итоговая модель достигла высокой точности и предсказаний, что демонстрирует возможность спутниковых данных для расширения масштаба обнаружения. ## Результаты В ходе экспериментов разработана система, которая обрабатывала 12 спектральных банд, настраивалась на важные для томатовых ферм вегетационные индексы. Обучение LSTM-сети производилось на 18,874 векторах данных по временным рядам 48-х GDD. Модель достигла 88% точности на обучающем наборе и 87% на тестовом, с предсказанием F1-меры 0.89. Разрешающая способность информативных индексов (например, NDMI, CCC, FAPAR, chlorophyll red-edge index) была проверена на различиях в физиологических условиях в зараженных и нет зараженных полях. Это подтвердило работу системы на основе спутниковых данных для обнаружения паразитических видов в полевых условиях. ## Значимость Разработанная модель представляет собой надежное решение для повышения эффективности борьбы с branched broomrape в тепличных условиях. Она может быть применена в других сельскохозяйственных производствах, где вредители создают угрозу урожаям. Инновационный подхо

Annotation:

Branched broomrape (Phelipanche ramosa (L.) Pomel) is a chlorophyll-deficient parasitic plant that threatens tomato production by extracting nutrients from the host, with reported yield losses up to 80 percent. Its mostly subterranean life cycle and prolific seed production (more than 200,000 seeds per plant, viable for up to 20 years) make early detection essential. We present an end-to-end pipeline that uses Sentinel-2 imagery and time-series analysis to identify broomrape-infested tomato fiel...

ID: 2509.10804v1 eess.IV, cs.AI, cs.CV, cs.LG

arXiv PDF

📄 Automated Tuning for Diffusion Inverse Problem Solvers without Generative Prior Retraining

2025-09-16

Авторы:

Yaşar Utku Alçalar, Junno Yun, Mehmet Akçakaya

## Контекст В области развития генеративных моделей для решения инверских задач, таких как ускоренное восстановление изображений магнитной резонансной томографии (MRI), в последнее время наблюдается значительный прогресс. Диффузионные/скоростно-основые модели стали популярными генеративными примитивами для таких задач, благодаря их гибкости и возможности декомпозировать модель измерения от генеративного примитива. Однако, их эффективность сильно зависит от точного настройки данных фидертити-весов, особенно при использовании быстрых схем сэмплирования и небольшого числа данонинговых шагов. Традиционные подходы часто опираются на грубые интуитивные решения или установленные предварительно фиксированные веса, которые не могут эффективно адаптироваться к разным условиям измерений и нестандартным расписаниям. В данной работе мы предлагаем новый подход, Zero-shot Adaptive Diffusion Sampling (ZADS), который расширяет возможности текущих подходов, обеспечивая адаптивную настройку весов данных при тестировании без необходимости переучивать модель диффузионного примитива. ## Метод ZADS представляет собой метод оптимизации на этапе теста, который адаптивно настраивает веса фидбека в процессе создания изображений без необходимости переучивать генеративный примитив. Метод основывается на универсальной архитектуре методики построения диффузионных моделей, которая рассматривает диффузионный процесс как упорядоченную последовательность измерений и оптимизирует веса данных с помощью техник зеркального самосупервизора. Метод не требует дополнительных данных или тестовых выборок для переучивания модели. Основная идея заключается в том, что генеративный переменный (денойсинговый процесс) остается неизменным, в то время как веса фидбека адаптируются к конкретным условиям измерений, что позволяет достичь высокого качества распознавания даже при произвольных схемах сэмплирования. ## Результаты Эксперименты проводились на датасете fastMRI, который содержит разнообразные данные MRI с высоким разрешением и разными условиями измерений. Мы сравнили ZADS с традиционными методами, такими как сжатие сигнала (Compressed Sensing), и другими моделями диффузионных примитивов. Опытным путем мы показали, что ZADS показывает высокую точность восстановления изображений в различных ситуациях с измерениями и фидбеком, превосходя остальные подходы в соотношении качества исходного изображения и скорости вычислений. Значительное улучшение показался в сценариях с быстрым сэмплированием и нестандартными расписаниями, где другие методы часто сталкиваются с проблемами стабильности и качества. ## Значимость Предложенный подход им

Annotation:

Diffusion/score-based models have recently emerged as powerful generative priors for solving inverse problems, including accelerated MRI reconstruction. While their flexibility allows decoupling the measurement model from the learned prior, their performance heavily depends on carefully tuned data fidelity weights, especially under fast sampling schedules with few denoising steps. Existing approaches often rely on heuristics or fixed weights, which fail to generalize across varying measurement c...

ID: 2509.09880v1 eess.IV, cs.AI, cs.CV, cs.LG, physics.med-ph

arXiv PDF

📄 Drone-Based Multispectral Imaging and Deep Learning for Timely Detection of Branched Broomrape in Tomato Farms

2025-09-16

Авторы:

Mohammadreza Narimani, Alireza Pourreza, Ali Moghimi, Mohsen Mesgaran, Parastoo Farajpoor, Hamid Jafarbiglu

#### Контекст Branched broomrape (Phelipanche ramosa) является опасным паразитным растением, которое широко распространено в томатных фермах Калифорнии, где создаются 90% производства томатных продуктов в США. Это растение оказывает серьезное воздействие на урожайность и качество томатов, так как его имплантация происходит в почвенных слоях, а его развитие начинается в глубине земли. Традиционные методы борьбы с broomrape, такие как химическое лечение, являются дорогостоящими, вредными для окружающей среды и часто неэффективными. Это усиливает необходимость разработки более точных и экологически безопасных способов раннего выявления паразита. Многоспектральная дронная съемка и глубокое обучение представляют собой мощные инструменты, которые могут помочь определять broomrape на ранних стадиях, позволяя принимать быстрые и эффективные меры. #### Метод Для выявления broomrape использовались дрон-базированные многоспектральные снимки, обрабатываемые с помощью глубоких нейронных сетей типа Long Short-Term Memory (LSTM). Исследования проводились на томатном ферме в Woodland, где был заранее установлен распространенный бронморапе. Данные снимались на разных стадиях роста томатов, определенных через ростую степень (GDD). Для улучшения классификации взяты многоспектральные изображения, включающие отражение из растений, и исключились ненужные шумы. Для решения проблемы несбалансированности классов использовалась техника Synthetic Minority Over-sampling Technique (SMOTE). Эта методика позволила увеличить долю меньшинственных классов broomrape в обучающих данных. Также было использовано LSTM-сети для учета последовательности роста растений и для повышения точности выявления. #### Результаты За стадии роста GDD 897 было выявлено broomrape с общей точностью 79.09% и реколлокцией 70.36% без использования данных поздних стадий. Однако когда включались все стадии развития сети LSTM, точность определения broomrape значительно выросла. Лучший сценарий, включавший все стадии роста и использовавший технику SMOTE, показал общую точность 88.37% и реколлокцию 95.37%. Эти результаты указывают на возможность применения многоспектральной дрон-съёмки и LSTM для раннего выявления broomrape с высокой точностью, что может существенно повысить эффективность управления растениями и снизить убытки в сельскохозяйственном производстве. #### Значимость Этот подход имеет широкие применения в сельском хозяйстве, особенно в секторе томатной продукции. Многоспектральная дронная съемка, обработанная LSTM-сетями, может стать действительно прецизионным инструментом, уменьшающим потери и повышающий уровень санитарных мер в томатных зем

Annotation:

This study addresses the escalating threat of branched broomrape (Phelipanche ramosa) to California's tomato industry, which supplies over 90 percent of U.S. processing tomatoes. The parasite's largely underground life cycle makes early detection difficult, while conventional chemical controls are costly, environmentally harmful, and often ineffective. To address this, we combined drone-based multispectral imagery with Long Short-Term Memory (LSTM) deep learning networks, using the Synthetic Min...

ID: 2509.09972v1 eess.IV, cs.AI, cs.CV, cs.LG

arXiv PDF

📄 CardioComposer: Flexible and Compositional Anatomical Structure Generation with Disentangled Geometric Guidance

2025-09-11

Авторы:

Karim Kadry, Shoaib Goraya, Ajay Manicka, Abdalla Abdelwahed, Farhad Nezami, Elazer Edelman

#### Контекст Улучшение понимания структур тела через генерируемые модели 3D-анатомии имеет решающее значение в клинических исследованиях и разработке медицинских устройств. Однако существующие модели сталкиваются с проблемой достижения компромисса между контролируемостью и реалистичностью анатомии. Из этой проблемы возникает необходимость разработки более гибких и композиционных подходов к генерированию анатомических структур. Наша мотивация заключается в создании модели, которая не только реалистична, но и позволяет контролировать отдельные аспекты структуры, такие как размер, форма и положение, при этом сохраняя возможность композиционного развития. #### Метод Мы предлагаем CardioComposer — модель, основанную на недетерминированных диффузионных моделях, которая использует интерпретируемые эллипсоидальные примитивы для гибкого управления структурой тканей. Модель работает в следующих этапов: вначале выбирается определенная ткань из многослойных сегментационных карт. Затем, мы применяем геометрические потери моментов для управления размером, формой и положением этой ткани в пространстве. Наша модель позволяет композировать несколько примитивов в одной модели, что дает полную гибкость в управлении анатомическими структурами. Эта архитектура позволяет осуществлять контроль над каждым компонентом структуры отдельно, что является ключевым отличием от существующих моделей. #### Результаты Мы проводили эксперименты на множестве сегментационных карт, охватывающих различные человеческие анатомические структуры. Модель показала высокую точность в создании реалистичных моделей тканей, удовлетворяющих конкретным геометрическим ограничениям. Мы также проверили возможность композиционного управления, где отдельные анатомические компоненты могут быть изменены независимо друг от друга. Итоговые модели отличались высокой точностью и реалистичностью, сравнимой с реальными сегментациями, что подтверждает эффективность нашего подхода. #### Значимость CardioComposer открывает широкие возможности в области клинических исследований, в частности для изучения структур-функциональных отношений в организме. Она также может использоваться для разработки и тестирования медицинских устройств, где точность моделирования анатомических структур критична. Эта модель предлагает более гибкий и контролируемый подход по сравнению с другими моделями, что позволяет более точно контролировать результат. #### Выводы Мы успешно разработали CardioComposer — модель, которая обеспечивает гибкое и композиционное генерирование анатомических структу

Annotation:

Generative models of 3D anatomy, when integrated with biophysical simulators, enable the study of structure-function relationships for clinical research and medical device design. However, current models face a trade-off between controllability and anatomical realism. We propose a programmable and compositional framework for guiding unconditional diffusion models of human anatomy using interpretable ellipsoidal primitives embedded in 3D space. Our method involves the selection of certain tissues...

ID: 2509.08015v1 eess.IV, cs.AI, cs.CV, cs.LG

arXiv PDF

📄 Can General-Purpose Omnimodels Compete with Specialists? A Case Study in Medical Image Segmentation

2025-09-05

Авторы:

Yizhe Zhang, Qiang Chen, Tao Zhou

#### Контекст Современные технологии сегментации медицинских изображений обладают высокой точностью, но часто ориентированы на конкретные задачи, включая сегментацию полипов, ретинальных сосудов и грудных ганглионов. Эти специализированные модели достигают высоких результатов, но не всегда могут обеспечивать универсальное использование в различных задачах. Увеличение сложности задачи может привести к потере точности и уменьшению модели модели, что делает ее менее эффективной. В этом контексте возникает вопрос о потенциале общего назначения в области медицинских изображений, который мог бы установить модели для широкого круга задач. #### Метод Для оценки силы и слабых сторон общего назначения в медицинской сегментации изображений был проведен компаративный анализ. Авторы использовали современную общего назначения модель Gemini 2.5 Pro (также известную как Nano Banana) и сравнили ее с результатами специализированных моделей на задачах сегментации полипов, ретинальных сосудов и грудных ганглионов. Особое внимание было уделено к сценариям со зеро-шотом, когда модели отрабатывают без предварительного обучения на конкретных задачах. Для экспериментов были выделены самые простые и самые сложные случаи, определяемые точностью специализированных моделей. #### Результаты Результаты показали, что на простых случаях специализированные модели показали лучшую точность. Например, в сегментации ретинальных сосудов и полипов специалисты показали себя лучше. Однако на сложных случаях, когда специалисты могут провалиться, omnimodel Gemini 2.5 Pro стабильно демонстрирует высокую точность. Это связано с возможностью модели обрабатывать разнообразие данных и понимать трудные случаи, в которых специалисты терпят неудачу. Также были выявлены ситуации, в которых omnimodel имеет более точное восприятие анатомических фигур, чем специалисты. #### Значимость Эта работа открывает новые перспективы для использования общего назначения моделей в медицинских задачах. Они могут использоваться в качестве средств для усиления робастности моделей, особенно для выполнения сложных задач. Также их можно использовать для генерации анатомических данных, когда специалисты не могут это сделать. Это улучшает целостность медицинских изображений и может повысить точность диагностики. #### Выводы На основе проведенного анализа можно сделать вывод, что omnimodel может значительно повысить робастность системы, особенно на сложных случаях. Однако они еще не могут заменить специалисты во всех случаях. Будущие исследования будут направлены на улучшение точности и развитие моделей, которые сочетают

Annotation:

The emergence of powerful, general-purpose omnimodels capable of processing diverse data modalities has raised a critical question: can these ``jack-of-all-trades'' systems perform on par with highly specialized models in knowledge-intensive domains? This work investigates this question within the high-stakes field of medical image segmentation. We conduct a comparative study analyzing the zero-shot performance of a state-of-the-art omnimodel (Gemini 2.5 Pro, the ``Nano Banana'' model) against d...

ID: 2509.00866v1 eess.IV, cs.AI, cs.CV, cs.LG

arXiv PDF

Показано 11 - 20 из 24 записей