📚 Саммари научных статей из arXiv

Найдено 100 результатов по запросу 'eess.IV, cs.AI, cs.CV' Сбросить поиск

📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 Automated Tuning for Diffusion Inverse Problem Solvers without Generative Prior Retraining

2025-09-16

Авторы:

Yaşar Utku Alçalar, Junno Yun, Mehmet Akçakaya

## Контекст В области развития генеративных моделей для решения инверских задач, таких как ускоренное восстановление изображений магнитной резонансной томографии (MRI), в последнее время наблюдается значительный прогресс. Диффузионные/скоростно-основые модели стали популярными генеративными примитивами для таких задач, благодаря их гибкости и возможности декомпозировать модель измерения от генеративного примитива. Однако, их эффективность сильно зависит от точного настройки данных фидертити-весов, особенно при использовании быстрых схем сэмплирования и небольшого числа данонинговых шагов. Традиционные подходы часто опираются на грубые интуитивные решения или установленные предварительно фиксированные веса, которые не могут эффективно адаптироваться к разным условиям измерений и нестандартным расписаниям. В данной работе мы предлагаем новый подход, Zero-shot Adaptive Diffusion Sampling (ZADS), который расширяет возможности текущих подходов, обеспечивая адаптивную настройку весов данных при тестировании без необходимости переучивать модель диффузионного примитива. ## Метод ZADS представляет собой метод оптимизации на этапе теста, который адаптивно настраивает веса фидбека в процессе создания изображений без необходимости переучивать генеративный примитив. Метод основывается на универсальной архитектуре методики построения диффузионных моделей, которая рассматривает диффузионный процесс как упорядоченную последовательность измерений и оптимизирует веса данных с помощью техник зеркального самосупервизора. Метод не требует дополнительных данных или тестовых выборок для переучивания модели. Основная идея заключается в том, что генеративный переменный (денойсинговый процесс) остается неизменным, в то время как веса фидбека адаптируются к конкретным условиям измерений, что позволяет достичь высокого качества распознавания даже при произвольных схемах сэмплирования. ## Результаты Эксперименты проводились на датасете fastMRI, который содержит разнообразные данные MRI с высоким разрешением и разными условиями измерений. Мы сравнили ZADS с традиционными методами, такими как сжатие сигнала (Compressed Sensing), и другими моделями диффузионных примитивов. Опытным путем мы показали, что ZADS показывает высокую точность восстановления изображений в различных ситуациях с измерениями и фидбеком, превосходя остальные подходы в соотношении качества исходного изображения и скорости вычислений. Значительное улучшение показался в сценариях с быстрым сэмплированием и нестандартными расписаниями, где другие методы часто сталкиваются с проблемами стабильности и качества. ## Значимость Предложенный подход им

Annotation:

Diffusion/score-based models have recently emerged as powerful generative priors for solving inverse problems, including accelerated MRI reconstruction. While their flexibility allows decoupling the measurement model from the learned prior, their performance heavily depends on carefully tuned data fidelity weights, especially under fast sampling schedules with few denoising steps. Existing approaches often rely on heuristics or fixed weights, which fail to generalize across varying measurement c...

ID: 2509.09880v1 eess.IV, cs.AI, cs.CV, cs.LG, physics.med-ph

arXiv PDF

📄 Drone-Based Multispectral Imaging and Deep Learning for Timely Detection of Branched Broomrape in Tomato Farms

2025-09-16

Авторы:

Mohammadreza Narimani, Alireza Pourreza, Ali Moghimi, Mohsen Mesgaran, Parastoo Farajpoor, Hamid Jafarbiglu

#### Контекст Branched broomrape (Phelipanche ramosa) является опасным паразитным растением, которое широко распространено в томатных фермах Калифорнии, где создаются 90% производства томатных продуктов в США. Это растение оказывает серьезное воздействие на урожайность и качество томатов, так как его имплантация происходит в почвенных слоях, а его развитие начинается в глубине земли. Традиционные методы борьбы с broomrape, такие как химическое лечение, являются дорогостоящими, вредными для окружающей среды и часто неэффективными. Это усиливает необходимость разработки более точных и экологически безопасных способов раннего выявления паразита. Многоспектральная дронная съемка и глубокое обучение представляют собой мощные инструменты, которые могут помочь определять broomrape на ранних стадиях, позволяя принимать быстрые и эффективные меры. #### Метод Для выявления broomrape использовались дрон-базированные многоспектральные снимки, обрабатываемые с помощью глубоких нейронных сетей типа Long Short-Term Memory (LSTM). Исследования проводились на томатном ферме в Woodland, где был заранее установлен распространенный бронморапе. Данные снимались на разных стадиях роста томатов, определенных через ростую степень (GDD). Для улучшения классификации взяты многоспектральные изображения, включающие отражение из растений, и исключились ненужные шумы. Для решения проблемы несбалансированности классов использовалась техника Synthetic Minority Over-sampling Technique (SMOTE). Эта методика позволила увеличить долю меньшинственных классов broomrape в обучающих данных. Также было использовано LSTM-сети для учета последовательности роста растений и для повышения точности выявления. #### Результаты За стадии роста GDD 897 было выявлено broomrape с общей точностью 79.09% и реколлокцией 70.36% без использования данных поздних стадий. Однако когда включались все стадии развития сети LSTM, точность определения broomrape значительно выросла. Лучший сценарий, включавший все стадии роста и использовавший технику SMOTE, показал общую точность 88.37% и реколлокцию 95.37%. Эти результаты указывают на возможность применения многоспектральной дрон-съёмки и LSTM для раннего выявления broomrape с высокой точностью, что может существенно повысить эффективность управления растениями и снизить убытки в сельскохозяйственном производстве. #### Значимость Этот подход имеет широкие применения в сельском хозяйстве, особенно в секторе томатной продукции. Многоспектральная дронная съемка, обработанная LSTM-сетями, может стать действительно прецизионным инструментом, уменьшающим потери и повышающий уровень санитарных мер в томатных зем

Annotation:

This study addresses the escalating threat of branched broomrape (Phelipanche ramosa) to California's tomato industry, which supplies over 90 percent of U.S. processing tomatoes. The parasite's largely underground life cycle makes early detection difficult, while conventional chemical controls are costly, environmentally harmful, and often ineffective. To address this, we combined drone-based multispectral imagery with Long Short-Term Memory (LSTM) deep learning networks, using the Synthetic Min...

ID: 2509.09972v1 eess.IV, cs.AI, cs.CV, cs.LG

arXiv PDF

📄 Virtual staining for 3D X-ray histology of bone implants

2025-09-13

Авторы:

Sarah C. Irvine, Christian Lucas, Diana Krüger, Bianca Guedert, Julian Moosmann, Berit Zeller-Plumhoff

#### Контекст Оптическая микроскопия и традиционные методы традиционно используются для характеризации микроструктур организма, но требуют физического разделения тканей и подвергаются ограничениям в биохимической специфичности. В последние годы третье измерение стало доступным благодаря 3D-X-рентгеновской гистологии, которая позволяет проводить неинвазивное изображение биологических тканей в объеме без физического разделения. Однако ограниченная биохимическая специфичность грейскайлеттных изображений градаций серого не позволяет достичь той же степени детализации, что и традиционные химические стаинги. Наша мотивация заключается в расширении технологии виртуальной стаинги, которая уже используется в сегментах оптической микроскопии, в 3D-X-рентгеновскую гистологию, чтобы дать возможность контролировать и визуализировать тканей с биохимическим разнообразием, не требуя дополнительных материалов или химических стаингингов. #### Метод Мы развили метод виртуальной стаинги для 3D-X-рентгеновских сканов, используя синхротронное микро-CT с детальными скантами биологических тканей. Для обучения модели виртуальной стаинги мы использовали около 50 размеченных пар изображений, состоящих из микро-CT и традиционных химических стаингингов (толидин-синий). Данные были предварительно обработаны с помощью downsampling, чтобы соответствовать разрешению микро-CT. Для повышения гибкости при обучении использовались техники как геометрическая масштабированность, так и разнообразия в патчах. Модель базируется на архитектуре CycleGAN, оптимизированной с учетом ограниченности парных данных. Мы включили в модель пиксельную супервайзерию и техники для сохранения градации серого, чтобы обеспечить реалистичное цветное изображение, сохранив высокоспортивную структуру. #### Результаты Мы проверили нашу модель на около 50 парных изображений, сравнив результаты с двумя базовыми моделями: Pix2Pix и стандартной CycleGAN. Модель, предложенная в данном исследовании, показала лучшие результаты по метрикам SSIM, PSNR и LPIPS, что указывает на более высокое качество виртуального цветного стаинга. Мы смогли визуализировать различные биологические структуры, включая новую кость, которая образуется вокруг импланта, а также выделить пластины имплантата. Однако имеются некоторые вариации в отображении слоев деградации имплантата, что указывает на необходимость дополнительных данных для обучения. #### Значимость Метод, предложенный в данной ра

Annotation:

Three-dimensional X-ray histology techniques offer a non-invasive alternative to conventional 2D histology, enabling volumetric imaging of biological tissues without the need for physical sectioning or chemical staining. However, the inherent greyscale image contrast of X-ray tomography limits its biochemical specificity compared to traditional histological stains. Within digital pathology, deep learning-based virtual staining has demonstrated utility in simulating stained appearances from label...

ID: 2509.09235v1 eess.IV, cs.AI, cs.CV, physics.comp-ph, q-bio.QM

arXiv PDF

📄 Expert-Guided Explainable Few-Shot Learning for Medical Image Diagnosis

2025-09-12

Авторы:

Ifrat Ikhtear Uddin, Longwei Wang, KC Santosh

#### Контекст Медицинский анализ изображений широко применяется в диагностике, но сталкивается с ограничениями, связанными с недостатком экспертно аннотированных данных. Это приводит к проблемам с общеупотребимостью моделей и их клиническим применением. Большая часть работы в области небольших выборок (few-shot learning) ориентирована на улучшение точности классификации, но часто игнорирует важность прозрачности и интерпретируемости моделей, которые критичны для принятия решений в медицине. Наша мотивация заключается в создании фреймворка, который бы не только повышал точность, но и обеспечивал понятные причины своих выводов, укрепляя доверие клинических специалистов. #### Метод Мы предлагаем фреймворк, основанный на нескольких компонентов. Во-первых, мы используем регионы интереса (ROIs), предоставляемые радиологами, для направления внимания модели на ключевые области изображений. Во-вторых, мы вводим экспертно руководствованный метод управления вниманием, основанный на Grad-CAM, для получения специфичных для задачи специфичных супервайзеров внимания. В-третьих, мы предлагаем новую функцию потерь, основанную на Dice-similarity, для выравнивания внимания модели с теми областями, которые клинически значимы. Эта функция потерь учитывается вместе с целевым классическим целевым функционированием в рамках нескольких выборок. Модель обучается с использованием прототипной сети, при этом данные обучения сокращаются до нескольких выборок для каждого класса. #### Результаты Мы проверили наш фреймворк на двух различных наборах данных: BraTS (МРТ) и VinDr-CXR (Chest X-ray). На BraTS, в базовой ситуации точность модели выросла с 77.09% до 83.61%, а на VinDr-CXR — с 54.33% до 73.29%. Эти улучшения показывают, что наше решение повышает качество классификации и улучшает интерпретируемость модели. Мы также предоставили Grad-CAM-визуализации, подтверждающие, что модель обучается сосредоточиваться на диагностически важных областях, что улучшает надежность и надежность решений. #### Значимость Наш фреймворк может быть применен в различных областях, где недостаточно данных для обучения моделей, но требуется высокая точность и прозрачность. Это включает диагностику болезней, анализ изображений, где недостаточно выборок для обучения, и другие проблемы, где необходима доверительная взаимоотношение с клиническими специалистами. Наш подход предоставляет значительное преимущество в скорости интерпретируемости, что помогает клиническим специалистам понимать исходные решения и увеличивает ценность моделей в реальной клинической практике. #### Выводы Мы разработали экспертно руководствованную сист

Annotation:

Medical image analysis often faces significant challenges due to limited expert-annotated data, hindering both model generalization and clinical adoption. We propose an expert-guided explainable few-shot learning framework that integrates radiologist-provided regions of interest (ROIs) into model training to simultaneously enhance classification performance and interpretability. Leveraging Grad-CAM for spatial attention supervision, we introduce an explanation loss based on Dice similarity to al...

ID: 2509.08007v2 eess.IV, cs.AI, cs.CV

arXiv PDF

📄 Validation of a CT-brain analysis tool for measuring global cortical atrophy in older patient cohorts

2025-09-11

Авторы:

Sukhdeep Bal, Emma Colbourne, Jasmine Gan, Ludovica Griffanti, Taylor Hanayik, Nele Demeyere, Jim Davies, Sarah T Pendlebury, Mark Jenkinson

#### Контекст Квалификация симптомов сосудистой дегенерации мозга (СДМ), таких как глобальная коральная атрофия (GCA), крайне важна для диагностики и мониторинга заболеваний, связанных с возрастом, таких как деменция. Существующие методы оценки GCA, такие как визуальные линейки, требуют долгого времени и требуют опытного квалифицированного специалиста. Однако автоматизированные методы оценки, использующие глубокое обучение (DL), могут увеличить точность и эффективность диагностических процессов. Наша исследовательская группа разработала и протестировала DL-инструмент для измерения GCA, нацеленный на решение этих проблем. #### Метод Мы разработали и проверили DL-инструмент на основе глубокого обучения для измерения GCA. Исходные данные состояли из 864 сканов головного мозга, полученных с помощью компьютерной томографии (CT) от пациентов старше 65 лет, включая пациентов с очаговой тромбозной тромбоэмболической инсультной атакой (OCS) и больных в больнице активной медицины (ORCHARD-EPR). Данные разделены на три подвыборки в соотношении 60/20/20 для обучения, оптимизации и тестирования. Двум врачебным экспертам были предоставлены 864 скана, и их оценки были сравнены с оценками DL-инструмента, используя метрики, такие как масса абсолютной ошибки (MAE) и коэффициент Коэна. #### Результаты Из 864 сканов, MAE между оценками DL-инструмента и оценками первого оценщика было 3,2 для всех сканов, 3,1 для OCS, 3,3 для ORCHARD-EPR и 2,6 для легаси-сканов. Для половины сканов, разница между оценками DL-инструмента и первого оценщика составила от -2 до 2. Доверительный интервал для ошибки между оценками DL-инструмента и первого оценщика был установлен в пределах [-2; 2]. Выявленные различия в GCA-оценках DL-инструмента и оценках оценщиков не были значимы (односторонний ANOVA, p=0,35), а также не было значимых различий в средних GCA-оценках DL-инструмента и оценках первого оценщика (t-тест, p=0,66), второго оценщика (t=1,35, p=0,18) и между первым и вторым оценщиками (t=0,99, p=0,32). Оценки DL-инструмента GCA были сильно скоррелированы с возрастом и скоростью злокачественного старения (Kendall's tau, p<0,001). #### Значимость Наш DL-инструмент демонстрирует высокую точность в измерении GCA без необходимости вручную вводить данные. Он может быть использован для извлечения стандартизированных мер атрофии на большом масштабе, что позволит улучшить диагностические процессы и поддержать исследования в области старения и деменции. Это

Annotation:

Quantification of brain atrophy currently requires visual rating scales which are time consuming and automated brain image analysis is warranted. We validated our automated deep learning (DL) tool measuring the Global Cerebral Atrophy (GCA) score against trained human raters, and associations with age and cognitive impairment, in representative older (>65 years) patients. CT-brain scans were obtained from patients in acute medicine (ORCHARD-EPR), acute stroke (OCS studies) and a legacy sample. S...

ID: 2509.08012v1 eess.IV, cs.AI, cs.CV, I.2; I.4

arXiv PDF

📄 CardioComposer: Flexible and Compositional Anatomical Structure Generation with Disentangled Geometric Guidance

2025-09-11

Авторы:

Karim Kadry, Shoaib Goraya, Ajay Manicka, Abdalla Abdelwahed, Farhad Nezami, Elazer Edelman

#### Контекст Улучшение понимания структур тела через генерируемые модели 3D-анатомии имеет решающее значение в клинических исследованиях и разработке медицинских устройств. Однако существующие модели сталкиваются с проблемой достижения компромисса между контролируемостью и реалистичностью анатомии. Из этой проблемы возникает необходимость разработки более гибких и композиционных подходов к генерированию анатомических структур. Наша мотивация заключается в создании модели, которая не только реалистична, но и позволяет контролировать отдельные аспекты структуры, такие как размер, форма и положение, при этом сохраняя возможность композиционного развития. #### Метод Мы предлагаем CardioComposer — модель, основанную на недетерминированных диффузионных моделях, которая использует интерпретируемые эллипсоидальные примитивы для гибкого управления структурой тканей. Модель работает в следующих этапов: вначале выбирается определенная ткань из многослойных сегментационных карт. Затем, мы применяем геометрические потери моментов для управления размером, формой и положением этой ткани в пространстве. Наша модель позволяет композировать несколько примитивов в одной модели, что дает полную гибкость в управлении анатомическими структурами. Эта архитектура позволяет осуществлять контроль над каждым компонентом структуры отдельно, что является ключевым отличием от существующих моделей. #### Результаты Мы проводили эксперименты на множестве сегментационных карт, охватывающих различные человеческие анатомические структуры. Модель показала высокую точность в создании реалистичных моделей тканей, удовлетворяющих конкретным геометрическим ограничениям. Мы также проверили возможность композиционного управления, где отдельные анатомические компоненты могут быть изменены независимо друг от друга. Итоговые модели отличались высокой точностью и реалистичностью, сравнимой с реальными сегментациями, что подтверждает эффективность нашего подхода. #### Значимость CardioComposer открывает широкие возможности в области клинических исследований, в частности для изучения структур-функциональных отношений в организме. Она также может использоваться для разработки и тестирования медицинских устройств, где точность моделирования анатомических структур критична. Эта модель предлагает более гибкий и контролируемый подход по сравнению с другими моделями, что позволяет более точно контролировать результат. #### Выводы Мы успешно разработали CardioComposer — модель, которая обеспечивает гибкое и композиционное генерирование анатомических структу

Annotation:

Generative models of 3D anatomy, when integrated with biophysical simulators, enable the study of structure-function relationships for clinical research and medical device design. However, current models face a trade-off between controllability and anatomical realism. We propose a programmable and compositional framework for guiding unconditional diffusion models of human anatomy using interpretable ellipsoidal primitives embedded in 3D space. Our method involves the selection of certain tissues...

ID: 2509.08015v1 eess.IV, cs.AI, cs.CV, cs.LG

arXiv PDF

📄 RoentMod: A Synthetic Chest X-Ray Modification Model to Identify and Correct Image Interpretation Model Shortcuts

2025-09-11

Авторы:

Lauren H. Cooke, Matthias Jung, Jan M. Brendel, Nora M. Kerkovits, Borek Foldyna, Michael T. Lu, Vineet K. Raghu

## Контекст Автоматизация интерпретации радиологических изображений, включая рентгеновские снимки груди (CXRs), может снизить нагрузку на радиологов и расширить доступ к диагностическим услугам. Несмотря на успех динамичных нейронных сетей для CXR-интерпретации, эти модели часто сталкиваются с проблемой "коротких путей" (shortcut learning), когда они опираются на спуративные и неклинически значимые корреляции вместо клинически важных признаков. Эта проблема ограничивает точность и специфичность моделей, что является ключевым вызовом для развития надежных инструментов в медицинской интеллектуальной системе. ## Метод RoentMod — это модель модификации изображений, основанная на открытом источнике RoentGen, которая генерирует реалистичные CXR-изображения с пользовательскими синтетическими патологиями. Она использует технологию модификации изображений (image-to-image), не требуя переучета целевой модели. Важной особенностью является возможность сохранения независимых анатомических черт оригинального снимка, что обеспечивает реалистичность и достоверность полученных изображений. ## Результаты Радиологические эксперты проверили RoentMod-производимые изображения на реалистичность и правильность внедрения синтетических патологий. Результаты показали, что 93% изображений были оценены как реалистичные, а внедренные патологии были корректно отображены в 89-99% случаев. Более того, RoentMod сохраняет анатомические отличия с оригинальным снимком с точностью, приближенной к реальным следованиям. Эксперименты показали, что использование RoentMod для обучения моделей снижает их зависимость от спуративных корреляций, повышая точность и специфичность моделей на различных патологиях в пределах 3-19% AUC в внутренних испытаниях и 1-11% для 5 из 6 патологий во внешних тестах. ## Значимость RoentMod представляет собой широко применяемую стратегию для идентификации и устранения проблем shortcut learning в моделях медицинского интеллектуального анализа. Она обеспечивает контролируемые интервенции в CXR-изображениях, улучшая их интерпретируемость и устойчивость. Эта модель может быть применена для проведения исследований в области создания надежных медицинских моделей искусственного интеллекта, а также для развития инновационных решений в области диагностики на основе изображений. ## Выводы Результаты исследований подтверждают эффективность RoentMod в создании реалистичных CXR-изображений для проверки и изменения моделей CXR-интерпретации. Она способствует повышению их точности, специфичности и общей надежности. Будущие исследования будут сфокусированы на ра

Annotation:

Chest radiographs (CXRs) are among the most common tests in medicine. Automated image interpretation may reduce radiologists\' workload and expand access to diagnostic expertise. Deep learning multi-task and foundation models have shown strong performance for CXR interpretation but are vulnerable to shortcut learning, where models rely on spurious and off-target correlations rather than clinically relevant features to make decisions. We introduce RoentMod, a counterfactual image editing framewor...

ID: 2509.08640v1 eess.IV, cs.AI, cs.CV, I.4, I.2, J.3

arXiv PDF

📄 Evaluation of Machine Learning Reconstruction Techniques for Accelerated Brain MRI Scans

2025-09-11

Авторы:

Jonathan I. Mandel, Shivaprakash Hiremath, Hedyeh Keshtgar, Timothy Scholl, Sadegh Raeisi

#### Контекст Модернизация МРТ-сканирования с помощью глубокого обучения стала ключевым инструментом для улучшения качества изображений и эффективности работы в медицинской практике. Одной из основных проблем в этой области является возможность сокращения времени сканирования без потери диагностического качества. Эта проблема становится актуальной в условиях роста спроса на МРТ-исследования и ограниченных временных ресурсах в работе МРТ-комнат. #### Метод В рамках исследования применялась методология реконструкции изображений с помощью глубокого обучения, а именно алгоритма DeepFoqus-Accelerate. Этот алгоритм был использован для реконструирования ускоренных (фазе-энкодинг-undersampled) 2D/3D T1, T2 и FLAIR последовательностей MRI. Данные были получены как из публичных баз данных (fastMRI), так и из клинических исследований. Реконструкция была сравнивалась с стандартом загруженности (SOC), включая трехмерные изображения. Эксперты оценивали качество изображений с помощью 5-балльного шкалы Likert, а метрики качества, такие как Structural Similarity Index (SSIM), Peak Signal-to-Noise Ratio (PSNR) и HaarPSI, позволяли оценивать их объективное соответствие стандарту. #### Результаты Ускоренные МРТ-сканы, построенные с помощью DeepFoqus-Accelerate, подвергались оценке трех борд-сертифицированных нейрорадиологов и двух медицинских технологов. Ни одно из исследований не получило оценки ниже 3 на 5-балльной шкале, а 95% получили оценку $\geq 4$. Метрики качества также были высокими, причем SSIM был 0.95 $\pm$ 0.03 (90% случаев были выше 0.90), PSNR превышал 41.0 дБ, а HaarPSI - около 0.94. Эти результаты подтверждают, что глубокое обучение позволяет сократить время сканирования в четырьм раз, при этом сохраняющий высокое качество изображений. #### Значимость Полученные результаты имеют значительное значение для практики МРТ-сканирования, так как демонстрируют, что глубокое обучение может быстро и эффективно улучшить обработку изображений, не теряя качества диагностики. Этот подход может быть использован в различных областях, включая клиническую практику и массовые программы МРТ-исследований. Для пациентов это означает сокращение времени проведения исследований, тогда как для работников здравоохранения это экономит время и ресурсы. #### Выводы Исследование показало, что DeepFoqus-Accelerate является эффективной методикой ускорения МРТ-сканирования без ущерба для качества. В будущем следует рассмотреть возможность распространения этого подхода на другие зоны в области диагностики и оценки структуры мозга с помощью МРТ. Будущие и

Annotation:

This retrospective-prospective study evaluated whether a deep learning-based MRI reconstruction algorithm can preserve diagnostic quality in brain MRI scans accelerated up to fourfold, using both public and prospective clinical data. The study included 18 healthy volunteers (scans acquired at 3T, January 2024-March 2025), as well as selected fastMRI public datasets with diverse pathologies. Phase-encoding-undersampled 2D/3D T1, T2, and FLAIR sequences were reconstructed with DeepFoqus-Accelerate...

ID: 2509.07193v1 eess.IV, cs.AI, cs.CV

arXiv PDF

📄 Enhanced SegNet with Integrated Grad-CAM for Interpretable Retinal Layer Segmentation in OCT Images

2025-09-11

Авторы:

S M Asiful Islam Saky, Ugyen Tshering

#### Контекст Оптическая когерентная томография (OCT) широко используется в клинической практике для диагностики заболеваний, таких как глаукома, диабетическая реtinопатия и старческая макулярная дегенерация. Однако ключевой элемент этих диагностических процессов — точная сегментация ретинальных слоев — часто требует много времени и склонна к молекулярной интерпретации. Ручная сегментация требует опыта и труда, а действия стандартных нейронных сетей часто являются непрозрачными. Эта проблема усложняет полезность нейросетевых моделей в клинических приложениях. Таким образом, целью данного исследования является развитие более точной, автоматизированной и интерпретируемой модели сегментации ретинальных слоев, которая могла бы упростить клинические задачи и обеспечить надежную интерпретацию результатов. #### Метод Предлагаемая модель основывается на SegNet, с целью улучшить ее возможности обобщения и точности. Измененные стратегии свертки и max-pooling позволяют модели более эффективно извлекать признаки из шумных OCT-изображений. Для решения проблемы неоднородности в слоях регионов, таких как жидкость сетчатки, разработана специализированная функция потерь, объединяющая функцию кросс-энтропии и Dice-loss. Это позволяет улучшить оценку и обучение модели для небольших регионов. В интеграцию модели также включен Gradient-weighted Class Activation Mapping (Grad-CAM), обеспечивающий графические объяснения для диагностических решений. Эта функция обеспечивает визуальную транспарентность и позволяет клиническим специалистам проверить результаты модели. Модель обучалась и проверялась на датасете Duke OCT, чтобы оценить ее точность и универсальность. #### Результаты Исследование показало, что модифицированная SegNet-модель достигла валидационной точности 95.77%, коэффициента Dice 0.9446 и Jaccard-индекса (IoU) 0.8951. Класс-специфические эксперименты показали высокую точность разделения почти для всех регионов региона, за исключением тонких границ. Grad-CAM-визуализации демонстрировали важность клинических зон, что подтверждало штамм модели в определении важных регионов. Эти визуальные объяснения способствуют лучшему пониманию того, как модель принимает решения, и увеличивают доверие клинических экспертов к ней. #### Значимость Полученная модель предлагает многочисленные преимущества для практических клинических приложений. Она обеспечивает высокую точность, значительно сокращая время, затрачиваемое на сегментацию. Интеграция Grad-CAM повышает транспарентность и помогает клиническим специалистам проверять результа

Annotation:

Optical Coherence Tomography (OCT) is essential for diagnosing conditions such as glaucoma, diabetic retinopathy, and age-related macular degeneration. Accurate retinal layer segmentation enables quantitative biomarkers critical for clinical decision-making, but manual segmentation is time-consuming and variable, while conventional deep learning models often lack interpretability. This work proposes an improved SegNet-based deep learning framework for automated and interpretable retinal layer se...

ID: 2509.07795v1 eess.IV, cs.AI, cs.CV

arXiv PDF

📄 FASL-Seg: Anatomy and Tool Segmentation of Surgical Scenes

2025-09-10

Авторы:

Muraam Abdel-Ghani, Mahmoud Ali, Mohamed Ali, Fatmaelzahraa Ahmed, Mohamed Arsalan, Abdulaziz Al-Ali, Shidin Balakrishnan

## Контекст Рост популярности роботизированных минимально инвазивных операций в сфере медицины привел к тому, что глубокое обучение стало ключевым направлением в системах тренировки хирургов. Для эффективного обучения необходимо тщательное понимание компонентов сцены хирургической операции. Однако существующие модели имеют ограничения в том, что они недостаточно точно отличают анатомические объекты и стоковые инструменты на хирургических сценах. Недостаток в точности и представлении сложных сцен приводит к необходимости в развитии моделей семантической сегментации, которые могут обеспечить более точное разделение этих компонентов. Мы предлагаем новую модель Feature-Adaptive Spatial Localization (FASL-Seg), которая предназначена для эффективного анализа и сегментации объектов с разными уровнями детализации. ## Метод FASL-Seg основывается на двух основных потоках обработки, которые принимают во внимание разные уровни детализации. Низкоуровневый поток (LLFP) специализируется на тонкой детализации изображений, в то время как высокоуровневый поток (HLFP) сосредотачивается на контекстном понимании. Это позволяет модели быть более точной в различных задачах сегментации. Мы использовали архитектуру сверточных нейронных сетей с улучшенным механизмом адаптации для выделения разных типов источников данных. Модель обучалась на широко известных датасетах EndoVis18 и EndoVis17, которые включают объекты, инструменты и другие компоненты хирургических сцен. ## Результаты На EndoVis18 показано, что FASL-Seg достигла максимальной точности в сегментации частей и анатомических объектов (72.71% mIoU), что превышает лучшие результаты локальных моделей на 5%. Для сегментации инструментов, она показала результат 85.61% на EndoVis18 и 72.78% на EndoVis17, что также превосходит существующие модели. Наши результаты показывают, что модель обладает высокой точностью и постоянностью в разных классах, что демонстрирует ее эффективность в разных условиях. ## Значимость Этот подход может быть применен в медицинских областях, где необходима точная сегментация анатомических объектов и инструментов, например, в роботизированных операциях и медико-технических исследованиях. Он предлагает значительное улучшение точности и обеспечивает более гибкий подход к сегментации сложных сцен. Мы также выделяем потенциал модели в обучении для новых моделей, которые могут быть использованы для улучшения качества хирургических операций. ## Выводы FASL-Seg доказала свою эффективность в сегментации анатомических и инструментальных компонентов на хирургических сценах. Мы планируем про

Annotation:

The growing popularity of robotic minimally invasive surgeries has made deep learning-based surgical training a key area of research. A thorough understanding of the surgical scene components is crucial, which semantic segmentation models can help achieve. However, most existing work focuses on surgical tools and overlooks anatomical objects. Additionally, current state-of-the-art (SOTA) models struggle to balance capturing high-level contextual features and low-level edge features. We propose a...

ID: 2509.06159v1 eess.IV, cs.AI, cs.CV, I.4.6; I.4.8; J.3

arXiv PDF

1
2
4
5
6
7
8
9
10

Показано 51 - 60 из 100 записей