📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 0

Последнее обновление: сегодня
Авторы:

Guillaume Balezo, Raphaël Bourgade, Thomas Walter

## Контекст Атипичные митотические фигуры (AMF) являются признаками неоднородного и недостаточного деления клетки, которые связаны с неблагоприятным прогнозом. Однако их детектирование представляет собой трудную задачу из-за низкой преvalence, тонкой морфологии и высокой интер-наблюдательной гомотропности. Характеристики этих фигур чрезвычайно важны для клинической практики, но их выявление чрезвычайно сложно. MIDOG 2025 представляет собой бенчмарк для классификации AMF в различных областях, включая гистопатологию. В данном исследовании мы исследуем возможности новой модели DINOv3-H+, которая была обучена на натуральных изображениях, и рассмотрим ее файн-тюнинг с помощью низкорангового адаптирования (LoRA) и расширенного аугментирования. ## Метод Мы начали с предварительно обученной модели DINOv3-H+, которая была адаптирована к задаче классификации AMF. Для тонкой адаптации использовался метод LoRA, который позволяет переносить модель с минимальным количеством параметров (650 тысяч) и эффективно обучать ее для новой задачи. Для увеличения устойчивости и разнообразия данных использовались различные методы аугментации. Мы оценили DINOv3-H+ на корпусе данных MIDOG 2025, сравнивая его производительность с другими моделями. ## Результаты DINOv3-H+ показала сильную передачу из прикладного теста на натуральные изображения на задачу классификации AMF. Модель достигла балансированной точности 0,8871 на предварительном тестовом наборе данных MIDOG 2025. Этот результат указывает на высокую эффективность DINOv3-H+ в передаче известных признаков из изображений на новую задачу. Основным фактором успеха является LoRA-файн-тюнинг, который позволил адаптировать модель к новым данным с минимальным потреблением параметров и высокой эффективностью. ## Значимость Наше исследование открывает новые пути для использования моделей, обученных на натуральных изображениях, в клинических задачах, таких как классификация AMF. DINOv3-H+ оказалась высокоэффективной в передаче известных признаков, даже при отсутствии полного переобучения на новых данных. Эта модель предоставляет новый подход к адаптации моделей для задач, требующих высокой точности и низкого потребления ресурсов. ## Выводы Мы показали, что DINOv3-H+, обученная на натуральных изображениях, является перспективной моделью для классификации AMF. Файн-тюнинг с помощью LoRA позволяет эффективно адаптировать модель к новым задачам с минимальным потреблением ресурсов. Мы планируем продолжить работу над улучшением процесса файн-тюнинга и исследованием других моделей для кла
Annotation:
Atypical mitotic figures (AMFs) are markers of abnormal cell division associated with poor prognosis, yet their detection remains difficult due to low prevalence, subtle morphology, and inter-observer variability. The MIDOG 2025 challenge introduces a benchmark for AMF classification across multiple domains. In this work, we evaluate the recently published DINOv3-H+ vision transformer, pretrained on natural images, which we fine-tuned using low-rank adaptation (LoRA, 650k trainable parameters) a...
ID: 2508.21041v1 eess.IV, cs.CV
Авторы:

Yuhui Tao, Yizhe Zhang, Qiang Chen

**Резюме** Segmentация района эдима (EA) в изображениях SD-OCT является ключевым заданием в диагностике макулярного эдима. Несмотря на прогрессы в аномалийно-обнаруживающих методах, их эффективность в этой задаче остается ниже, чем у полностью направленных моделей. В статье предлагается улучшение адверсарного фреймворка для EA-сегментации с использованием слабых супервизионных признаков и учета слоёв ретины. Работа построена на интеграции слабых супервизионных методов с адаптивным подходом и тестированием в рантайме (TTA). Основной идеей является переформулировка задачи в рамках интерсекции контура EA с слоями ретины, что улучшает аккуратность и соответствие форме. Тесты на двух общедоступных датасетах показали, что предложенные усовершенствования повышают точность и устойчивость модели, приближая результаты к полностью направленным методам. Эти подходы могут стать важной компонентой развития AI-моделей в медицинской имидж-аналитике.
Annotation:
The development of artificial intelligence models for macular edema (ME) analy-sis always relies on expert-annotated pixel-level image datasets which are expen-sive to collect prospectively. While anomaly-detection-based weakly-supervised methods have shown promise in edema area (EA) segmentation task, their per-formance still lags behind fully-supervised approaches. In this paper, we leverage the strong correlation between EA and retinal layers in spectral-domain optical coherence tomography (S...
ID: 2508.18790v1 eess.IV, cs.CV
Авторы:

Jan Nikolas Morshuis, Matthias Hein, Christian F. Baumgartner

## Контекст Магнитная резонансная импедансная томография (MR) является важной диагностической технологией, позволяющей получать высококачественные изображения тела с высоким разрешением во времени и контрасте. Однако процесс проведения MR-изображения требует долгого времени, что приводит к неудобству для пациентов и увеличению затрат на здравоохранение. Из-за этого, в последние годы, активно развиваются методы ускоренной процедуры MR-изображения, которые позволяют получить реконструкцию, имитирующую полностью многошаговую процедуру. Несмотря на это, для многих диагностических задач достаточно приемлемого, а не идеального, изображения, особенно если цель заключается в выполнении задачи сегментации. Исследователи начали разрабатывать методы, направленные на прямую сегментацию на базе ускоренного MR-датасета, что привело к росту интереса к этим подходам. Тем не менее, существующие методы в основном развивались изолированно, без полной сравнительной оценки. Нет единого стандарта для оценки эффективности таких методов, что сделало необходимым создание кросс-доказательственного бенчмарка для сравнения. В данной работе представлен первый полный бенчмарк, сравнивающий 7 методов сегментации ускоренных MR-данных, с фокусом на анализе двух подходов: одношаговых и двухшаговых. ## Метод Для сравнения методов были выбраны 7 подходов, включая одношаговые (комбинирующие реконструкцию и сегментацию) и двухшаговые (использующие стандартные методы реконструкции MR-изображений, после чего применяются сети сегментации). Для этих методов проводилось тестирование на двух различных датасетах, представляющих собой многокоильную структуру k-пространства и входящие в состав аннотированных данных сегментации. Проведенные эксперименты исследовали качество сегментации, а также эффективность процесса в зависимости от сложности датасета. ## Результаты На основе проведенных экспериментов, проанализированы полученные результаты каждого метода. В результате, было выявлено, что двухшаговые подходы, включающие в себя простые сети сегментации и стандартные методы реконструкции, показали лучшие результаты в сегментации. Эти методы показали себя эффективнее, чем одношаговые подходы, которые комбинируют реконструкцию и сегментацию в одной модели. Таким образом, оказалось, что простые двухшаговые подходы, с учетом данных консистентности, дают более высокое качество сегментации. ## Значимость Полученные результаты имеют значение для разных областей, в том числе в медицине и инженерии, где необходима эффективная
Annotation:
MR imaging is a valuable diagnostic tool allowing to non-invasively visualize patient anatomy and pathology with high soft-tissue contrast. However, MRI acquisition is typically time-consuming, leading to patient discomfort and increased costs to the healthcare system. Recent years have seen substantial research effort into the development of methods that allow for accelerated MRI acquisition while still obtaining a reconstruction that appears similar to the fully-sampled MR image. However, for ...
ID: 2508.18975v1 eess.IV, cs.CV
Авторы:

Aneesh Rangnekar, Harini Veeraraghavan

## Контекст Автоматическая детекция и сегментация раковых опухолей на изображениях полученных методом компьютерной томографии (CT) является критически важной задачей в области медицинского искусственного интеллекта. Это позволяет обеспечить точное планирование лечения и оценку эффективности терапии. Однако существуют значительные вызовы, связанные с точностью работы сегментационных моделей, особенно при использовании данных, отличающихся от обучающих (out-of-distribution, OOD). Традиционные модели часто не могут точно детектировать OOD случаи, что приводит к неточностям и нестабильности в работе систем. Мотивация для данного исследования заключается в разработке универсального метода, который мог бы улучшить надеждность сегментации в случаях, когда данные отличаются от обучающих. ## Метод Для решения этой проблемы предлагается использование Random Forest-based Out-of-Distribution Detection (RF-Deep). Этот подход использует deep features, полученные от предобученного transformer-based segmentation model, чтобы обнаружить OOD случаи. Модель представляет собой random forest classifier, который принимает deep features, полученные от Swin Transformer encoder. Этот encoder был предобучен с помощью masked image modeling (SimMIM) на большом количестве необъективированных 3D CT сканов, отражающих как раковые, так и здоровые ткани. Для сегментации легкоклеточных опухолей легких была использована convolution decoder. Модель была протестирована на 603 3D CT сканах, включавших один in-distribution (ID) games и четыре OOD datasets: chest CTs with pulmonary embolism (PE) и COVID-19, а также abdominal CTs с kidney cancers и healthy volunteers. ## Результаты Проведенные эксперименты показали, что RF-Deep достигает значительной точности в детекции OOD случаев. Он обнаруживает OOD cases с FPR95 равным 18.26% на PE, 27.66% на COVID-19, и менее 0.1% на abdominal CTs. Это значительно превосходит существующие OOD detection approaches. Благодаря использованию deep features, RF-Deep увеличивает надежность сегментации в области cancer segmentation, даже при работе с нестандартными данными. ## Значимость Результаты этого исследования имеют широкие приложения в области медицинского искусственного интеллекта. Они могут быть применены для улучшения надежности сегментации раковых опухолей в различных клинических сценариях, включая OOD случаи. Это имеет перспективы для повышения точности планирования лечения и оценки терапии. Разработанный подход также открывает возможности для дальнейшего исследования в области OOD detection, стабилизации моделей и улучшения их универсальности. ## Выводы Разработанный RF-Deep подход является простым и эффективным инструментом для улучшения надежности сегментации раковых опухолей в ID и OOD сценариях. Он устанавливает новый стандарт точности и надежности в данной области. Будущие работы будут сосредоточены на расширении применений этого
Annotation:
Accurate detection and segmentation of cancerous lesions from computed tomography (CT) scans is essential for automated treatment planning and cancer treatment response assessment. Transformer-based models with self-supervised pretraining can produce reliably accurate segmentation from in-distribution (ID) data but degrade when applied to out-of-distribution (OOD) datasets. We address this challenge with RF-Deep, a random forest classifier that utilizes deep features from a pretrained transforme...
ID: 2508.19112v1 eess.IV, cs.CV, cs.LG
Авторы:

Prabhant Singh, Yiping Li, Yasmina Al Khalil

## Контекст Область исследования — анализ методов для оценки передовой мощности (transferability) моделей машинного обучения в задачах анализа сургиских видео. Одним из основных заданий в этой области является выбор наиболее подходящей предобученной модели для дальнейшего fine-tuning на задачу распознавания фаз сургерии. Этот выбор становится критически важным в условиях ограниченного количества меток, необходимых для обучения. Одним из подходов является source-independent transferability estimation (SITE), позволяющий предсказать эффективность fine-tuning'а на основе существующих векторов выхода или эмбеддингов модели, не требуя полной перепрограммировки. Несмотря на преимущества SITE, существуют проблемы, такие как ограниченная общность и возможность неточных оценок, которые могут привести к недостоверному выбору модели. Цель данного исследования — оценить и сравнить три широко используемых метрики SITE в контексте задачи распознавания фаз в сургерии (surgical phase recognition). ## Метод Методология основывается на сравнительном анализе трех метрик SITE: LogME, H-Score и TransRate. Данные для тестирования были взяты из двух различных наборов данных: RAMIE и AutoLaparo. Эти метрики были измерены для трех предобученных моделей, а результаты были сравнивались с реальным fine-tuning'ом для проверки точности предсказаний. Аблационные эксперименты проводились для оценки значимости различных аспектов, таких как качество модели, размеры датасетов и их разнообразие. Для визуализации и анализа результатов использовались графики, такие как boxplots и scatter plots. ## Результаты Результаты экспериментов показали, что LogME показывает наиболее точные предсказания для fine-tuning'а в большинстве случаев, особенно при использовании минимума персональных оценок подмножеств. H-Score оказался менее точным, несмотря на свою теоретическую основу. TransRate, наоборот, часто давал неверные рейтинги моделей, превращая приемлемые версии в предположительно более предпочтительные. Аблационные исследования продемонстрировали, что при схожем качестве моделей, transferability metrics становятся менее дискриминативными, что подчеркивает важность разнообразия моделей или дополнительных проверок для поддержки стабильных выборок. ## Значимость Полученные результаты имеют практическое значение для практических задач в сургерии, таких как распознавание фаз операций и анализ сургериальных видео. SITE-метрики помогают уменьшить накладные расходы на подготовку данных, оценивая передовую мощность моделей без полного fine-tuning'а. Это может существенно сократить время и затраты на обучение моделей. Кроме того, результаты могут быть применены в других областях, где требуется оптимизация выбора предобученных моделей, таки
Annotation:
Fine-tuning pre-trained models has become a cornerstone of modern machine learning, allowing practitioners to achieve high performance with limited labeled data. In surgical video analysis, where expert annotations are especially time-consuming and costly, identifying the most suitable pre-trained model for a downstream task is both critical and challenging. Source-independent transferability estimation (SITE) offers a solution by predicting how well a model will fine-tune on target data using o...
ID: 2508.16730v1 eess.IV, cs.CV, cs.LG
Авторы:

Junhao Wu, Yun Li, Junhao Li, Jingliang Bian, Xiaomao Fan, Wenbin Lei, Ruxin Wang

#### Контекст Анализ медицинских изображений, особенно в области сегментации тканей и знаков заболеваний, является ключевым элементом в диагностике и терапии различных заболеваний. Особенно важной является сегментация лёгочно-фарингеальных туморов, так как точность этой процедуры влияет на качество диагностики и терапии. До сих пор, многие методы анализа изображений ограничиваются одним модальным изображением, что не позволяет полностью учесть все анатомические и патологические особенности. Наша работа направляется на развитие методов, которые бы учитывали не только 2D White Light Imaging (WLI), но и Narrow Band Imaging (NBI) для повышения точности сегментации. #### Метод Разработанная модель основывается на `Align-Disentangle-Fusion` механизме, который объединяет 2D WLI и NBI изображения в единое пространство. Основной принцип — это многоуровневый дистрибутивный выравниваний, который помогает устранить расхождения модальностей, используя блоки преобразования на нескольких уровнях. Однако главные инновации заключаются в стратегии прогрессивной фичи дисентеглирования. Это означает, что используется предварительное дисентеглирование и контрастное обучение, чтобы отделить модальность-специфичные и общие черты. Это позволяет эффективно обучаться в условиях многомодального анализа и объединять на выходе семантические признаки. #### Результаты Мы проверили нашу модель на нескольких наборах данных и сравнили результаты с текущими методами. Метод показал себя лучше в показателях точности сегментации на всех датасетах. Это демонстрирует его надежность и эффективность в различных реальных клинических сценариях. Такие результаты подтверждают пользу этого подхода в медицинском анализе изображений. #### Значимость Наш подход может быть применен в различных областях медицины, включая диагностику и оперативное вмешательство. Он обеспечивает более точный анализ изображений, что повышает качество диагностики. Одним из основных преимуществ является улучшение точности сегментации, что делает его полезным для медиков, а также для разработчиков медицинских решений. #### Выводы Нами был предложен новый подход к многомодальному анализу изображений в области медицины, основанный на `Align-Disentangle-Fusion` механизме. Мы показали, что наш метод более точен и эффективен в сравнении с другими методами. Наше исследование открывает пути для дальнейшего развития методов медицинского анализа, в том числе использования новых модальностей изображений для более точного диагностического анализа.
Annotation:
Accurate segmentation of laryngo-pharyngeal tumors is crucial for precise diagnosis and effective treatment planning. However, traditional single-modality imaging methods often fall short of capturing the complex anatomical and pathological features of these tumors. In this study, we present an innovative multi-modality representation learning framework based on the `Align-Disentangle-Fusion' mechanism that seamlessly integrates 2D White Light Imaging (WLI) and Narrow Band Imaging (NBI) pairs to...
ID: 2508.16882v1 eess.IV, cs.CV
Авторы:

Pouya Shiri, Xin Yi, Neel P. Mistry, Samaneh Javadinia, Mohammad Chegini, Seok-Bum Ko, Amirali Baniasadi, Scott J. Adams

## Контекст Диагностика и мониторинг тяжелых заболеваний, таких как поражения аорты, часто полагаются на контраст-инъекционные методы, включая контраст-энхансид ТО-импедианирование. Однако использование контрастных веществ несет риски, такие как повреждение почек и аллергические реакции. Альтернатива в виде высококачественного синтетического получения контрастных изображений без применения внешних агентов может существенно улучшить безопасность пациентов и снизить затраты на здравоохранение. Недостаточность существующих подходов, недостаточного представления контекста и нестабильность синтеза, являются мотивацией для разработки новой методологии. ## Метод Мы предлагаем развитие Slice-Consistent Brownian Bridge Diffusion Model (SC-BBDM) для генерации контрастных изображений из неконтрастных. Метод основывается на сохранении 3D-анатомической интегральности в процессе работы в 2D среде на высоком разрешении. Мы используем подробную предобработку данных, включающую ресемблирование, регистрацию с помощью метода Symmetric Normalization и создание разделенных масок сегментации, чтобы повысить точность. Для проверки подхода, мы создали две специальные выборки данных из Coltea-Lung dataset, одна содержит только аорту, а другая - и аорту, и сердце. ## Результаты Мы проверили нашу модель на двух выборках данных и сравнили результаты с базовыми методами. Наши результаты показывают, что модель эффективно сохраняет 3D-анатомический контекст и достигает высокого качества синтеза контраста. Мы также проверили надежность модели в поддержании стабильности и точности в процессе синтеза. ## Значимость Разработанный подход может применяться в области медицинских импедианирований для получения контрастных изображений без необходимости использования контрастных веществ. Это может существенно снизить риск побочных реакций, улучшить доступность медицинских услуг и снизить затраты на здравоохранение. Метод также может быть применен в других областях, где требуется высококачественная синтезированная информация с большим контекстом. ## Выводы Мы представили первую работу, использующую модель Brownian Bridge Diffusion для синтеза контрастных изображений. Наши результаты показывают, что подход эффективен в сохранении анатомической интегральности и повышении качества визуализации. Будущие исследования будут направлены на улучшение модели в условиях пониженного контраста и расширение ее применения в других медицинских областях.
Annotation:
Contrast-enhanced computed tomography (CT) imaging is essential for diagnosing and monitoring thoracic diseases, including aortic pathologies. However, contrast agents pose risks such as nephrotoxicity and allergic-like reactions. The ability to generate high-fidelity synthetic contrast-enhanced CT angiography (CTA) images without contrast administration would be transformative, enhancing patient safety and accessibility while reducing healthcare costs. In this study, we propose the first bridge...
ID: 2508.16897v1 eess.IV, cs.CV, physics.med-ph
Авторы:

Asadullah Bin Rahman, Masud Ibn Afjal, Md. Abdulla Al Mamun

#### Контекст Обработка изображений в медицине широко используется для диагностики, наблюдения и лечения различных заболеваний. Однако медицинские изображения часто подвержены шуму, который снижает качество изображения и ухудшает точность диагностики. Для улучшения качества работы в этой области требуется эффективное устранение шума с помощью современных методов. Несмотря на развитие методов обработки изображений, проблема шума в медицинских изображениях остается актуальной и требует дальнейшего исследования. #### Метод В этом исследовании использованы три различных глубоких нейронных сетей для удаления шума из медицинских изображений, а именно CNN-DAE, CADTra и DCMIEDNet. Модели подготовлены с применением конкретных архитектур сверточных нейронных сетей и адаптированы для обработки медицинских изображений. Алгоритмы обучения сетей оптимизированы с целью достижения максимальной точности удаления шума при сохранении детализации образов. Для сравнения результатов, использовалось датасет Figshare MRI Brain Dataset, сгенерированный шумами Гаусса с различными интенсивностями ($\sigma = 10, 15, 25$). #### Результаты Эксперименты показали, что DCMIEDNet демонстрирует выдающуюся производительность при удалении шума с низкими интенсивностями ($\sigma = 10, 15$). Модель достигла PSNR-значений $32.921 \pm 2.350$ dB и $30.943 \pm 2.339$ dB при $\sigma = 10$ и $15$ соответственно. CADTra, напротив, проявила высокую устойчивость к высокому шуму ($\sigma = 25$), показав PSNR $27.671 \pm 2.091$ dB. В целом, все три модели показали значительное улучшение в отношении традиционных wavelet-based методов, с увеличением PSNR от 5 до 8 дБ по сравнению с исходным шумом. #### Значимость Изученные модели могут быть применены в различных областях медицины, где нужно улучшить качество изображений, таких как диагностика, судебно-медицинская экспертиза и машинное обучение для лечения. Изображения с высоким качеством обеспечивают более точные диагностические результаты, что влечет за собой более эффективное лечение и повышение уровня медицинской помощи. Этот подход также обладает возможностью быстрого применения в клинических условиях, где требуется разумная производительность и небольшое время вычисления. #### Выводы В ходе этого исследования, DCMIEDNet показала себя как наиболее эффективная модель при удалении шума с низкими интенсивностями. CADTra, в свою очередь, показывает высокую устойчивость при высоком шуме. Несмотря на это, все три модели показали успех в сравнении с традиционными методами. Будущие исследования будут ориентированы на изучение возможностей дальней
Annotation:
Medical imaging modalities are inherently susceptible to noise contamination that degrades diagnostic utility and clinical assessment accuracy. This paper presents a comprehensive comparative evaluation of three state-of-the-art deep learning architectures for MRI brain image denoising: CNN-DAE, CADTra, and DCMIEDNet. We systematically evaluate these models across multiple Gaussian noise intensities ($\sigma = 10, 15, 25$) using the Figshare MRI Brain Dataset. Our experimental results demonstrat...
ID: 2508.17223v1 eess.IV, cs.CV
Авторы:

Tristan S. W. Stevens, Oisín Nolan, Ruud J. G. van Sloun

## Контекст Эхокардиография широко используется в кардиологии для диагностики и мониторинга сердечной деятельности. Она обеспечивает динамические виды сердца, которые критически важны для обнаружения и отслеживания различных сердечных заболеваний. Однако качество изображений часто подверждается негативному воздействию тумана (haze), вызванного многослойными возмущениями в сигнале. Эти возмущения значительно снижают качество изображений, особенно при обследовании пациентов с трудноподдающимися обработке импульсами эхокардиографии. Дефокация, вызванная туманом, может скрыть критические сердечные структуры, что затрудняет диагностику и лечение. В данном исследовании предлагается развитие семантически направленного, диффузионно-основанного алгоритма для дегазирования эхокардиографических изображений, применяемого в рамках DehazingEcho2025 Challenge. ## Метод Предложенный алгоритм основан на диффузионной модели, интегрирующей постоянную модель шума, полученную из семантической сегментации туманных изображений. Работа алгоритма основывается на двух основных компонентах: 1) построение диффузионной модели, которая учитывает перенос шума в пространстве, и 2) использование генеративного представления, обученного на чистых изображениях ультразвуковых сигналов. Архитектура алгоритма представляет собой последовательность диффузионных слоёв, регулируемых семантическими метками, полученными из отдельной модели сегментации. Это позволяет алгоритму избегать нежелательных деформаций в результирующих изображениях. ## Результаты Использование предложенного метода позволило достичь высоких результатов на метриках содержания информации и точности визуализации. На данных DehazingEcho2025 Challenge, алгоритм показал существенное улучшение визуального качества изображений по сравнению с исходным туманным сигналом. Оценка показала, что метод сохраняет точность структурных элементов, таких как сердцевая стенка и валисковые аппараты, при этом уменьшая шум и улучшая контрастность. Экспериментальные результаты доступны для воспроизведения, и код реализации может быть найден на GitHub по ссылке: https://github.com/tristan-deep/semantic-diffusion-echo-dehazing. ## Значимость Предложенный алгоритм может быть применён в различных областях медицинского изображения, где дефокация порождает трудности в визуализации. Он имеет практическое значение для улучшения качества диагностических изображений в сложных клинических ситуациях. Это может привести к более точному определению сердечных заболеваний, улучшению процессов мониторинга
Annotation:
Echocardiography plays a central role in cardiac imaging, offering dynamic views of the heart that are essential for diagnosis and monitoring. However, image quality can be significantly degraded by haze arising from multipath reverberations, particularly in difficult-to-image patients. In this work, we propose a semantic-guided, diffusion-based dehazing algorithm developed for the MICCAI Dehazing Echocardiography Challenge (DehazingEcho2025). Our method integrates a pixel-wise noise model, deri...
ID: 2508.17326v1 eess.IV, cs.CV
Авторы:

Toufiq Musah, Chinasa Kalaiwo, Maimoona Akram, Ubaida Napari Abdulai, Maruf Adewole, Farouk Dako, Adaobi Chiazor Emegoakor, Udunna C. Anazodo, Prince Ebenezer Adjei, Confidence Raymond

#### ## Контекст В области медицинского изображения, автоматизированная сегментация тканей и злокачественных образований играет ключевую роль в повышении точности диагностики и характеристики заболеваний. Однако сегментация зон болезни в ультразвуковых изображениях груди (B-mode ultrasound imaging, BUS) сталкивается с тем, что данные часто содержат артефакты и несогласованности, что затрудняет получение надежных моделей. Более того, недостаточное упорядочение в выборках данных может привести к улучшению внутри-доменной точности моделей, не обеспечивая качественную общезначимость и надежную оценку нарушений домена (domain shift). В нашем исследовании мы сосредоточились на этих проблемах, применяя модель с упрощенным архитектурой Residual Encoder U-Net для сегментации тканей в ультразвуковых изображениях груди (BUS). Наша модель также оценивает неопределенность модели (uncertainty quantification), чтобы улучшить надежность модели в клиническом применении. #### ## Метод Мы использовали улучшенную архитектуру Residual Encoder U-Net, которая носит нейронный сетевой архитектурный тип с рекуррентными модулями. Методом Monte Carlo Dropout мы оценивали **неопределенность еррорности (epistemic uncertainty)**, а с помощью Deep Ensembles мы сравнили ее с другими типами неопределенности. Мы выделили и исправили дублирование данных в BUSI-данных, чтобы повысить надежность оценки общего потенциала модели. Были проведены эксперименты, используя дедуплицированную выборку для точного определения качества модели. Мы также проверили надежность модели для внутри-доменной (in-distribution) и меж-доменной (out-of-distribution) сегментации. #### ## Результаты Модель показала высокую точность сегментации на Breast-Lesion-USG датасете в условиях in-distribution, достигнув новых рекордов в отношении автоматического разметки тканей и злокачественных образований. Мы также доказали, что Monte Carlo Dropout и Deep Ensembles эффективно оценивали неопределенность, отделяя точные от неточных области модели. Однако при оценке на out-of-distribution данных, точность уменьшилась, и модель стала избыточно неуверенна в задачах сегментации. Этот результат подтвердил трудности, связанные с domain shift, которые остаются открытыми в области медицинских изображений. #### ## Значимость Модель, оценивающая её неопределенность, может быть применена в клинической практике для улучшения надежности и точности диагностики. Наша работа подтверждает важность добавления механизмов, которые позволяют модели правильно оценивать свой доверительный интервал при работе с нестандартными или неизвестными данными. Это делает модель более надежной и востребованной в клиническом применении, где требуется высокая защищенность и надежность. #### ## Выводы Мы показали, что модель с техникой Monte Carlo Dropout и Deep Ensembles может эффективно
Annotation:
Automated segmentation of BUS images is important for precise lesion delineation and tumor characterization, but is challenged by inherent artifacts and dataset inconsistencies. In this work, we evaluate the use of a modified Residual Encoder U-Net for breast ultrasound segmentation, with a focus on uncertainty quantification. We identify and correct for data duplication in the BUSI dataset, and use a deduplicated subset for more reliable estimates of generalization performance. Epistemic uncert...
ID: 2508.17768v1 eess.IV, cs.CV
Показано 161 - 170 из 268 записей