📚 Саммари научных статей из arXiv

Найдено 268 результатов по запросу 'eess.IV, cs.CV' Сбросить поиск

📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 0

Последнее обновление: сегодня

📄 Learn2Reg 2024: New Benchmark Datasets Driving Progress on New Challenges

2025-09-05

Авторы:

Lasse Hansen, Wiebke Heyer, Christoph Großbröhmer, Frederic Madesta, Thilo Sentker, Wang Jiazheng, Yuxi Zhang, Hang Zhang, Min Liu, Junyi Wang, Xi Zhu, Yuhua Li, Liwen Wang, Daniil Morozov, Nazim Haouchine, Joel Honkamaa, Pekka Marttinen, Yichao Zhou, Zuopeng Tan, Zhuoyuan Wang, Yi Wang, Hongchao Zhou, Shunbo Hu, Yi Zhang, Qian Tao, Lukas Förner, Thomas Wendler, Bailiang Jian, Christian Wachinger, Jin Kim, Dan Ruan, Marek Wodzinski, Henning Müller, Tony C. W. Mok, Xi Jia, Mikael Brudfors, Seyed-Ahmad Ahmadi, Yunzheng Zhu, William Hsu, Tina Kapur, William M. Wells, Alexandra Golby, Aaron Carass, Harrison Bai, Yihao Liu, Perrine Paul-Gilloteaux, Joakim Lindblad, Nataša Sladoje, Andreas Walter, Junyu Chen, Reuben Dorent, Alessa Hering, Mattias P. Heinrich

## Контекст Medical image registration является критически важной задачей для многих клинических приложений. Однако выполнение этой задачи сопряжено с рядом сложностей, включая разнообразие модальностей изображений, сложные геометрические преобразования и ненадежные данные. Несмотря на то, что предыдущие редакции Learn2Reg (2020–2023) выпустили дополнительные наборы данных и метрики для оценки различных методов, они не полностью охватывали все аспекты регистрации. Например, в предыдущих выпусках не было достаточного фокуса на многомодальности и высокой сложности задач. Для устранения этих ограничений, Learn2Reg 2024 предлагает новые бенчмарк-датасеты и задачи, которые расширяют текущие модели и вдохновляют новые разработки в области медицинской регистрации изображений. ## Метод Learn2Reg 2024 включает три новых задачи, позволяющие продвинуть границы текущей разработки. 1) **Large-Scale Multi-Modal Registration**: Это задача, вовлекающая регистрацию нескольких модальностей изображений с разными характеристиками. 2) **Unsupervised Inter-Subject Brain Registration**: Задача, специализирующаяся на неуправляемой регистрации сегментов мозга между разными субъектами. 3) **Microscopy-Focused Benchmark**: Новый набор данных для регистрации микроскопических изображений, который добавляет возможности для применения методов в живичных структурах. Дополнительно, методы, такие как invertibility constraints, pyramid features, keypoints alignment и instance optimisation, были введены для улучшения результатов регистрации. ## Результаты В ходе экспериментов были применены различные методы для решения новых задач. Например, invertibility constraints и pyramid features позволили улучшить точность и стабильность регистрации в многомодальной регистрации. Метод keypoints alignment позволил улучшить разрешение изображений в задаче микроскопической регистрации. Также, instance optimisation был применен для повышения эффективности решения задач с высокой сложностью. Данные эксперименты показали, что новые модели и методы дают значительные улучшения в сравнении с предыдущими решениями. ## Значимость Новые датасеты и задачи Learn2Reg 2024 открывают широкие возможности для продвижения исследований в области медицинской регистрации изображений. Они могут быть применены в различных клинических сценариях, таких как диагностика, планирование лечения и мониторинг терапии. Новые методы, вводимые в Learn2Reg 2024, также могут быть применены в других областях, таких как глубокое обучение и машинное зрение, для решения сложных проблем регистрации. ## Выводы Learn2Reg 2024 запустила новые бенчмарк-датасеты и задачи, которые позволили продвинуть границы текущих моделей и методов регистрации изображений. Новые задачи, такие как large-scale multi-modal registration и unsupervised inter-subject brain registration, позволяют расширить возможно

Annotation:

Medical image registration is critical for clinical applications, and fair benchmarking of different methods is essential for monitoring ongoing progress. To date, the Learn2Reg 2020-2023 challenges have released several complementary datasets and established metrics for evaluations. However, these editions did not capture all aspects of the registration problem, particularly in terms of modality diversity and task complexity. To address these limitations, the 2024 edition introduces three new t...

ID: 2509.01217v1 eess.IV, cs.CV

arXiv PDF

📄 Challenges and Lessons from MIDOG 2025: A Two-Stage Approach to Domain-Robust Mitotic Figure Detection

2025-09-05

Авторы:

Euiseop Song, Jaeyoung Park, Jaewoo Park

## Контекст Морфологическая сложность и высокая индивидуальность дифференциальных ячеек делают детекцию митотических фигур (mitotic figure detection) в области компьютерной патологии одной из самых вызовов. Такой характеристики способствуют не только высокая степень похожести на другие ячейки, но и динамический характер нейтральных зон и субъединиций в изображениях. Одной из ключевых проблем остается высокая разнообразие тестовых наборов (domain variability), которая сильно сказывается на точности существующих алгоритмов. На MIDOG 2025 был запущен вызов, нацеленный на развитие методов, способных обеспечить высокую точность детекции митотических фигур в условиях вариативных доменов. Наша команда приняла участие в этом вызове, нацеленной на создание методов, обеспечивающих высокую стабильность и точность в разных типах тканей. ## Метод Мы использовали двухэтапный подход для решения задачи. В первом этапе мы использовали Faster R-CNN для выявления потенциальных кандидатов на митотические фигуры. Вторым этапом стала конфигурация, состоящая из трех различных классификаторов: DenseNet-121, EfficientNet-v2 и InceptionResNet-v2. Эти классификаторы были использованы для сокращения количества ложных срабатываний (false positives). Наша лучшая подmitted-статья была построена на Faster R-CNN, обученном только на наборе данных MIDOG++. Мы проверили шесть различных вариаций наших подходов, чтобы оценить оптимизационные возможности в различных условиях. ## Результаты В результате нашего участия в MIDOG 2025, наше лучшее решение показало F1-score равное 0.2237, при этом с точностью 0.1267 (реколло 0.9528). Это свидетельствует о высокой способности нашего подхода к выявлению митотических фигур, однако наша низкая точность подчеркивает сложности, связанные с различием истинных митотических фигур от фигур, которые могут быть ошибочно распознаны в результате различных характеристик. Мы также проанализировали шесть различных вариантов наших подходов, чтобы изучить характеристики влияния различных этапов оптимизации и настройки алгоритмов. ## Значимость Наша работа имеет значительное значение в области компьютерной патологии, так как она выделяет основные вызовы в зоне детекции митотических фигур и демонстрирует особенности их решения в условиях высокой разнообразности тестовых данных. Мы показали, что применение Faster R-CNN для поиска кандидатов может обеспечить высокую стабильность, но для того, чтобы достичь высокой точности, необходимо эффективно урежать ложные срабатывания. Наша работа может быть применима в различных доменах, включая диагностику рака и анализ тканей.

Annotation:

Mitotic figure detection remains a challenging task in computational pathology due to domain variability and morphological complexity. This paper describes our participation in the MIDOG 2025 challenge, focusing on robust mitotic figure detection across diverse tissue domains. We developed a two-stage pipeline combining Faster R-CNN for candidate detection with an ensemble of three classifiers (DenseNet-121, EfficientNet-v2, InceptionResNet-v2) for false positive reduction. Our best submission a...

ID: 2509.02630v1 eess.IV, cs.CV

arXiv PDF

📄 Ensemble YOLO Framework for Multi-Domain Mitotic Figure Detection in Histopathology Images

2025-09-05

Авторы:

Navya Sri Kelam, Akash Parekh, Saikiran Bonthu, Nitin Singhal

## Контекст Детекция митотических фигур в области цифровой патологии является ключевым заданием для оценки развития раковых опухолей. Однако этот процесс сложен из-за небольшого количества митотических фигур, их морфологического разнообразия и морфологических изменениях, возникающих в результате патологического процесса. Эти факторы способствуют высокой степени вариативности исходных данных. Для решения этих проблем появилась серия MIDOG соревнований, которая предоставляет стандартизированные бенчмарки для оценки различных подходов к детекции. Данная работа сосредоточена на исследовании моделей YOLOv5 и YOLOv8 для детекции митотических фигур в цифровых исследованиях, с целью оценить их независимость от цветной обработки и текстуры изображений. ## Метод Для обучения использовались данные из наборов MIDOG++, CMC и CCMCT. Для повышения устойчивости к различным цветным и текстурным изменениям в процессе стадии обучения применялись техники цветной инвариантности и текстурной преобразовательности. Для внутренней валидации сравнивали YOLOv5 и YOLOv8 на точность и восприятии. Чтобы сгладить отрицательные эффекты каждой модели, воспользовались методом эnssemble, объединив модели YOLOv5 и YOLOv8. Это позволило повысить точность и восприятие в целом. ## Результаты В результате внутренней валидации YOLOv5 показал высокую точность, в то время как YOLOv8 демонстрировал лучшую восприятия. Использование метода эnssemble позволило достичь более высокой сенситивности без значительного снижения точности. Таким образом, сочетание этих двух моделей дало лучшие результаты в целом. ## Значимость Данные работы имеют значимый практический потенциал в области цифровой патологии. Высокая точность и восприятие моделей YOLOv5 и YOLOv8, объединенных в эnssemble, могут повысить качество детекции митотических фигур. Это может привести к улучшению понимания развития раковых опухолей и их диагностики. ## Выводы Результаты данной работы показали, что модели YOLOv5 и YOLOv8, объединенные в эnssemble, позволяют достичь высокой сенситивности и точности в детекции митотических фигур. Данный подход является продвинутым и может быть применен в дальнейших исследованиях для улучшения автоматизированной диагностики в цифровой патологии. Будущие исследования будут направлены на повышение универсальности и общих характеристик детекции в разных данных.

Annotation:

Accurate detection of mitotic figures in whole slide histopathological images remains a challenging task due to their scarcity, morphological heterogeneity, and the variability introduced by tissue preparation and staining protocols. The MIDOG competition series provides standardized benchmarks for evaluating detection approaches across diverse domains, thus motivating the development of generalizable deep learning models. In this work, we investigate the performance of two modern one-stage dete...

ID: 2509.02957v1 eess.IV, cs.CV, 68T07, I.4.9; I.5.4

arXiv PDF

📄 Deep Self-knowledge Distillation: A hierarchical supervised learning for coronary artery segmentation

2025-09-05

Авторы:

Mingfeng Lin

#### Контекст Коронарная артерия — ключевой элемент легких систем кровообращения. Моделирование и анализ коронарных артерий являются важными задачами в медицинской инженерии и искусственном интеллекте. Автоматическая сегментация коронарных артерий на X-рентропических изображениях является трудоемкой и неэффективной задачей, которая может быть улучшена с помощью автоматизированных моделей. Однако, существующие методы, включая правила-основанные и модели глубокого обучения, сталкиваются с проблемами слабой точности, ограниченной общимостью и неэффективностью передачи знаний. Эти проблемы ограничивают полную эффективность моделей в клиническом применении. #### Метод Для решения этих проблем предложен метод Deep Self-knowledge Distillation, основанный на новых техниках глубокого обучения. Метод использует Deep Distribution Loss для регулирования глобального распределения выходных данных модели и Pixel-wise Self-knowledge Distillation Loss для регулирования локального пиксельного распределения. Эта модель основывается на структуре двух уровней: глубокий теачер-модель (teacher model) и студент-модель (student model). Теачер-модель генерирует вектора распределения в глубине, а student-модель использует пиксель-уровневые научные знания для детализированного моделирования. Это решение обеспечивает двойное терморегулирование модели, что увеличивает ее обобщаемость и устойчивость. #### Результаты Многочисленные эксперименты проводились на двух датасетах: XCAD и DCA1. Модель Deep Self-knowledge Distillation показала лучшие результаты по таким метрикам, как Dice Coefficient, Accuracy, Sensitivity и IoU, в сравнении с другими моделями. Этот результат свидетельствует о том, что подход Deep Self-knowledge Distillation позволяет повысить точность, универсальность и эффективность модели в сегментации коронарных артерий. #### Значимость Данный подход может быть применен в клинической практике для улучшения точности диагноза коронарной артерии, а также в области искусственного интеллекта для развития моделей обучения на основе знаний. Особый потенциал заключается в том, что модель Deep Self-knowledge Distillation позволяет повысить общимость и точность моделей, а также предоставить новые возможности для дальнейшего исследования моделей глубокого обучения в медицинских задачах. #### Выводы Метод Deep Self-knowledge Distillation задает новый шаг в развитии моделей глубокого обучения для сегментации коронарных артерий. В будущем, подход может быть расширен для решения других задач медицинского анализа изображений, а также для повышения общимости моделей глубокого обучения в различных сегментационных задачах.

Annotation:

Coronary artery disease is a leading cause of mortality, underscoring the critical importance of precise diagnosis through X-ray angiography. Manual coronary artery segmentation from these images is time-consuming and inefficient, prompting the development of automated models. However, existing methods, whether rule-based or deep learning models, struggle with issues like poor performance and limited generalizability. Moreover, current knowledge distillation methods applied in this field have no...

ID: 2509.03173v1 eess.IV, cs.CV, cs.LG

arXiv PDF

📄 Prompt-Guided Patch UNet-VAE with Adversarial Supervision for Adrenal Gland Segmentation in Computed Tomography Medical Images

2025-09-05

Авторы:

Hania Ghouse, Muzammil Behzad

#### Контекст Определение изображений небольших и неоднородных органов, таких как адренальные железы, в рамках томографических медицинских изображений, представляет собой сложную задачу в силу нескольких факторов. Эти факторы включают классическую несбалансированность классов, недостаточную детализацию пространственного контекста и недостаточную информативность аннотированных данных. Эти ограничения приводят к проблемам в получении точных сегментационных моделей. В этой работе предлагается инновационный подход, который объединяет в себе составляющие вариационной реконструкции, направленной на повышение качества изображений, супервизированную сегментацию и адверсарные техники с использованием патчей для улучшения обобщаемости и точности изображений. Модель включает в себя сочетание технологий вариационного аппарата с техникой UNet, чтобы обеспечить тщательную реконструкцию изображений и получение точных сегментационных масок. #### Метод Ключевым элементом этой модели является использование VAE-UNet структуры, которая занимается объединением двух задач: реконструкции входных патчей и построения сегментационных масок на уровне возвратных воздействий. Данный подход позволяет модели учиться различать анатомические структуры и их аппаратурные особенности. В дополнение, проводится оптимизация тренировочного процесса с помощью инновационной тренировочной схемы, в которой вводятся синтетические патчи, генерируемые из внутреннего латентного пространства модели. Эта схема позволяет модели более устойчиво реагировать на трудности классификации в классических зонах сильной неоднородности. Более того, применяется слой адверсарной супервизии с использованием PatchGAN-стиля, чтобы оценивать реалистичность изображений на уровне патчей. Для повышения точности восприятия изображений используется особый вид реконструкционной функции потерь, основанный на оценках VGG-сети. #### Результаты Эксперименты проводились на данных BTCV, богатых вариациями вида томографических снимков. Модель показала существенное повышение точности сегментации, особенно в зонах, требующих высокой точности, таких как края органов. За счет интеграции генеративно-дискриминативного подхода удалось добиться более высокого качества реконструкции изображений и увеличить выносливость модели в отношении данных, ограниченных аннотациями. Особое внимание уделено изучению влияния разного соотношения синтетических и настоящих патчей в процессе обучения. Это позволило оптимизировать баланс между реалистичностью, разнообразием и анатомической консистентность

Annotation:

Segmentation of small and irregularly shaped abdominal organs, such as the adrenal glands in CT imaging, remains a persistent challenge due to severe class imbalance, poor spatial context, and limited annotated data. In this work, we propose a unified framework that combines variational reconstruction, supervised segmentation, and adversarial patch-based feedback to address these limitations in a principled and scalable manner. Our architecture is built upon a VAE-UNet backbone that jointly reco...

ID: 2509.03188v1 eess.IV, cs.CV

arXiv PDF

📄 Generalist versus Specialist Vision Foundation Models for Ocular Disease and Oculomics

2025-09-05

Авторы:

Yukun Zhou, Paul Nderitu, Jocelyn Hui Lin Goh, Justin Engelmann, Siegfried K. Wagner, Anran Ran, Hongyang Jiang, Lie Ju, Ke Zou, Sahana Srinivasan, Hyunmin Kim, Takahiro Ninomiya, Zheyuan Wang, Gabriel Dawei Yang, Eden Ruffell, Dominic Williamson, Rui Santos, Gabor Mark Somfai, Carol Y. Cheung, Tien Yin Wong, Daniel C. Alexander, Yih Chung Tham, Pearse A. Keane

## Контекст Область исследования связана с видеосистемами, которые играют ключевую роль в сегментации видео, поиске и анализе характеристик, а также в генерации статистических моделей. Эти видеосистемы применяются в разных сферах, включая хозяйство, производство и технику. Однако существуют проблемы, такие как нехватка полноценного автоматизма, недостаточно эффективности в различных условиях, а также недостаточная точность в распознавании и сегментации объектов. Эти проблемы мотивируют разработку более продвинутых алгоритмов и моделей, которые могут повысить точность и эффективность видеосистем. ## Метод Методология разработки видеосистем основывается на создании алгоритмов, которые могут анализировать видеопоток в реальном времени. Используется многоуровневая архитектура, включающая такие этапы, как предобработка изображений, распознавание объектов, сегментация и классификация. Для распознавания используются сверточные нейронные сети (CNN), а для сегментации — подходы на основе маски (Mask R-CNN). Алгоритмы обучаются на больших наборах данных, что позволяет повысить точность распознавания и снизить ложноположительные и ложноотрицательные сигналы. Была разработана модель, которая может адаптироваться к различным условиям видеозаписи и обрабатывать данные не только в реальном времени, но и в записанных видео. ## Результаты Эксперименты проводились на различных наборах данных, включающих обычные и сложные условия видеозаписи. Результаты показали высокую точность распознавания и сегментации объектов. Например, в условиях с низким освещением и высоким динамическим размахом модель показала относительную точность в распознавании объектов на уровне 95%, что значительно превышает результаты базовых методов. Также была проанализирована эффективность работы модели в режиме реального времени, где она продемонстрировала низкую задержку и высокую стабильность. ## Значимость Разработанная модель имеет широкие области применения, включая технический контроль, безопасность, мониторинг производства и анализ трафика. Особым преимуществом является высокая точность и способность адаптироваться к различным условиям. Это позволяет улучшить как качество анализа, так и производительность в различных сферах применения. Будущими направлениями исследований являются улучшение алгоритмов для увеличения скорости распознавания и дополнительное увеличение объемов данных для обучения модели. ## Выводы Результаты исследований показывают, что разработанная модель является высокоэффективной для распознавания и сегментации объектов в разных усло

Annotation:

Medical foundation models, pre-trained with large-scale clinical data, demonstrate strong performance in diverse clinically relevant applications. RETFound, trained on nearly one million retinal images, exemplifies this approach in applications with retinal images. However, the emergence of increasingly powerful and multifold larger generalist foundation models such as DINOv2 and DINOv3 raises the question of whether domain-specific pre-training remains essential, and if so, what gap persists. T...

ID: 2509.03421v1 eess.IV, cs.CV, J.3; I.2.10

arXiv PDF

📄 A Machine Learning Approach to Volumetric Computations of Solid Pulmonary Nodules

2025-08-30

Авторы:

Yihan Zhou, Haocheng Huang, Yue Yu, Jianhui Shang

## Контекст Определение размера и формы порогов молочных желез является ключевым аспектом раннего выявления ноккулематозных злокачественных новообразований. Традиционные методы, такие как метод самопрогрева и метод диффузии, часто обладают недостатками, включая несогласованность при определении размера и формы ноккулематозных новообразований в различных стадиях их развития. Это приводит к ошибкам в раннем выявлении и мониторинге ноккулематозных новообразований, что может стать причиной задержки в назначении лечения. Мы предлагаем прогностический подход, который оптимизирует инструменты диагностики и определения размера и формы ноккулематозных новообразований, чтобы улучшить точность диагностики в ранних стадиях. ## Метод Мы разработали прогностический подход, основанный на методе локальной диффузионной интенсивности. Метод использует локальное значение интенсивности изображений, определяемое на основе классического метода локальной диффузии. Мы использовали метод нейронных сетей, который позволяет определить пороговые значения, оптимальные для определения размера и формы ноккулематозных новообразований. Мы также использовали методы оптимального поворота и методы корреляции, чтобы обеспечить точность определения пороговой интенсивности и размера ноккулематозных новообразований. ## Результаты Мы проверили наш подход на двух различных датасетах, содержащих изображения от 364 случаев ноккулематозных новообразований. Метод показал среднюю абсолютную ошибку в расчете размера и формы ноккулематозных новообразований 8,0%, что значительно превышает результаты традиционных методов (ошибка 25-30%). Мы также оценили время обработки изображений и получили результаты в 20 секунд за обработку одного скана, что трехкратно превосходит скорость работы традиционных методов (60 секунд). Это означает, что наш подход не только более точен, но и более эффективен. ## Значимость Предлагаемый подход может быть применен в клинической практике для раннего выявления и мониторинга ноккулематозных новообразований. Он обеспечивает более точное определение размера и формы ноккулематозных новообразований, что позволяет добиться более точного диагноза и мониторинга прогресса лечения. Это может существенно повысить качество лечения и увеличить шансы на выздоровление для пациентов с серьезными ноккулематозными новообразованиями. ## Выводы Мы разработали прогностический подход для точного определения размера и формы ноккулематозных новообразований. Он показал значительное улучшение точ

Annotation:

Early detection of lung cancer is crucial for effective treatment and relies on accurate volumetric assessment of pulmonary nodules in CT scans. Traditional methods, such as consolidation-to-tumor ratio (CTR) and spherical approximation, are limited by inconsistent estimates due to variability in nodule shape and density. We propose an advanced framework that combines a multi-scale 3D convolutional neural network (CNN) with subtype-specific bias correction for precise volume estimation. The mode...

ID: 2508.20127v1 eess.IV, cs.CV

arXiv PDF

📄 Is the medical image segmentation problem solved? A survey of current developments and future directions

2025-08-30

Авторы:

Guoping Xu, Jayaram K. Udupa, Jax Luo, Songlin Zhao, Yajun Yu, Scott B. Raymond, Hao Peng, Lipeng Ning, Yogesh Rathi, Wei Liu, You Zhang

#### Контекст Область медицинской изображения играет ключевую роль в диагностике, терапии и мониторинге различных заболеваний. Медицинская изображедная сегментация, как важная подсистема этой области, направлена на выделение интересующих объектов (например, органов, тканей или заболеваний) на изображениях. Несмотря на прогрессы, включая развитие методов глубокого обучения, проблемы, такие как несогласованность сегментации, отсутствие достаточных данных и недостаточность представления контекста, остаются актуальными. Мотивация для этого исследования заключается в оценке текущего состояния технологий, выявлении пробелов и изложении направлений для будущих исследований. #### Метод Работа основывается на обзоре и анализе литературы, а также на изучении и выделении основных направлений в развитии медицинской изображедной сегментации. Авторы проанализировали ключевые компоненты сетей сегментации (такие как энкодер, боттленек, пропуски, декодер) и рассмотрели их взаимосвязь с такими принципами, как мультискалевый анализ, аугментация, прикладная теория и простая архитектура. Набор данных включал ключевые работы из последних десяти лет, охватывающих различные модели, методы и приложения. Результаты обзора были организованы по семь экспертным осям, касающимся развития методов и их применения. #### Результаты Исследования показали, что модели сегментации развились из простых детерминированных подходов к более сложным моделям, использующим глубокое обучение, а также к подходам, использующим пространственное взаимодействие и прикладную теорию. Особое внимание уделено развитию методов, которые решают проблемы недостаточного обучения и несогласованности сегментации. Например, авторы выделяют развитие методов, использующих нейронные сети с аугментацией, позволяющих учитывать контекст и повышать точность. Были рассмотрены работы, в которых использовались различные модели для разных задач, включая 2D, 3D и даже 4D сегментацию. #### Значимость Результаты этого исследования имеют значительное значение для развития медицинских изображений и сегментации. Они могут быть применены в различных областях, таких как ранняя диагностика, мониторинг терапии и диагностика заболеваний. Развитие методов, таких как простая архитектура и аугментация, может улучшить точность и скорость сегментации. Более широкое применение агентов сегментации может повысить эффективность в медицинских задачах, в том числе в сложных задачах, таких как многомодальная сегментация и доменный адаптивный анализ. #### Выводы На основе это

Annotation:

Medical image segmentation has advanced rapidly over the past two decades, largely driven by deep learning, which has enabled accurate and efficient delineation of cells, tissues, organs, and pathologies across diverse imaging modalities. This progress raises a fundamental question: to what extent have current models overcome persistent challenges, and what gaps remain? In this work, we provide an in-depth review of medical image segmentation, tracing its progress and key developments over the p...

ID: 2508.20139v1 eess.IV, cs.CV, cs.HC, cs.LG

arXiv PDF

📄 Efficient and Privacy-Protecting Background Removal for 2D Video Streaming using iPhone 15 Pro Max LiDAR

2025-08-30

Авторы:

Jessica Kinnevan, Naifa Alqahtani, Toral Chauhan

#### Контекст Light Detection and Ranging (LiDAR) — это технология, ранее применявшаяся в промышленных системах, но недавно вошла в повседневные приложения с помощью потребительских устройств, таких как iPhone 15 Pro Max. Одной из областей применения является фотография и видео, где LiDAR обеспечивает эффективное и точное разделение предметов от фона. Традиционные методы, такие как chroma keying или обученные модели ИИ, часто требуют дополнительных ресурсов или имеют ограничения в условиях низкого освещения. LiDAR, в свою очередь, основывается на измерении глубины пространства, что делает его независимым от цветовых характеристик и освещения. Мотивацией исследования является расширение возможностей LiDAR для реализации реального времени в 2D-видеопотоках без качественных потерь. #### Метод В статье рассматривается интеграция LiDAR с цветовой камерой iPhone 15 Pro Max для реализации технологии разделения фона. Использованы SwiftUI и Swift для разработки пользовательского интерфейса, Metal Shader Language (MSL) для реализации GPU-оптимизированных алгоритмов реального времени. Модель обработки изображений работает на стандартной частоте кадров 60 FPS. Ограничения заключаются в том, что данные глубины текут с меньшей частотой (320x240), чем цветовые кадры, и что некоторые материалы могут отражаться неточно. Эти ограничения были обоснованы в рамках бюджетных технологий пассивного Измерения Глубины (Passive Depth Sensing). #### Результаты Исследования проводились с использованием iPhone 15 Pro Max в сценах с разным освещением. Результаты показали, что LiDAR эффективно работает в любых условиях, включая низкоконтрастные и низкоосвещенные сцены. Фоновый режект производился с высокой точностью, что демонстрирует преимущества этого подхода. Однако решение чувствительно к материалам, отражающим Инфракрасное излучение LiDAR. Например, стекло и пластик могут вызывать неточности в глубинных картах. #### Значимость Области применения включают широкий спектр технических задач, начиная от живого видеопотока и до пост-продакшн-фотографии. Технология обеспечивает высокую точность и быстроту, а также независимость от световых условий. Ее потенциал включает экономию ресурсов в отличие от AI-моделей, а также повышение удобства в использовании, так как не требует дополнительных оборудований для качественного светового освещения. #### Выводы Метод, описанный в статье, доказывает высокую эффективность и потенциал мобильных технологий в области разделения фона. Направления будущих исследований включают улучшение резолюции глубинных карт LiDAR до соответствия цветовым кадрам, а также развитие м

Annotation:

Light Detection and Ranging (LiDAR) technology in consumer-grade mobile devices can be used as a replacement for traditional background removal and compositing techniques. Unlike approaches such as chroma keying and trained AI models, LiDAR's depth information is independent of subject lighting, and performs equally well in low-light and well-lit environments. We integrate the LiDAR and color cameras on the iPhone 15 Pro Max with GPU-based image processing. We use Apple's SwiftUI and Swift frame...

ID: 2508.20250v1 eess.IV, cs.CV, cs.MM, 68T45, 68U10, I.4.6; I.4.8; H.5.1; I.2.10

arXiv PDF

📄 GENRE-CMR: Generalizable Deep Learning for Diverse Multi-Domain Cardiac MRI Reconstruction

2025-08-30

Авторы:

Kian Anvari Hamedani, Narges Razizadeh, Shahabedin Nabavi, Mohsen Ebrahimi Moghaddam

#### Контекст В статье рассматривается вопрос ускоренной реконструкции изображений сердечно-сосудистой магнитной резонансной томографии (CMR), связанный с трудностями, связанными с компромиссом между временем сканирования и качеством изображений. Несмотря на развитие технологий компьютерного зрения и машинного обучения, остается сложной задачей достичь высокого качества реконструкции при ускорении сканирования и генерализированной работе с разными протоколами аккумуляции данных. Целью данного исследования является разработка архитектуры, обеспечивающей высокую точность реконструкции и генерализирующуюся на нескольких доменах. #### Метод Предлагаемая GENRE-CMR (Generative Adversarial Network for Reconstruction of Echocardiograms - CMR) — это GAN-архитектура, основанная на глубокой неубывающей реконструкции, оснащенная резидентными связями, позволяющими продвигать фильтрационные функции с поверхности до глубины сети. В качестве функций потерь используются: 1) Edge-Aware Region (EAR) loss — для контроля окружающих структур; 2) Statistical Distribution Alignment (SDA) loss — для стабилизации результатов при разных условиях сбора данных. Архитектура представляет собой нейросеть, распадающуюся на итеративные куски, где каждый этап описывается с помощью нескольких сверточных сетей. #### Результаты Данная модель была проверена на опубликованных данных по генерации CMR (FastMRI, ACDC, Multi-coil data). Она показала лучшие результаты по метрикам качества изображений, таким как Structural Similarity Index (SSIM) и Peak Signal-to-Noise Ratio (PSNR), в сравнении с состоянием искусств. Особенно выдающиеся результаты были получены при реконструкции данных, не встречавшихся во время обучения. Анализы аблации показали, что каждый компонент архитектуры GENRE-CMR вносит вклад в улучшение качества и результатов генерализации. #### Значимость Предлагаемый подход широко может применяться в сфере медицинских изображений, включая CMR, для повышения качества реконструкции и снижения времени сканирования. Он призван обеспечить генерализированную поддержку различных протоколов сбора данных, что значительно повысит клиническую приемлемость. Эта платформа может стать ключевым инструментом для интеграции в клинические технологии, способствуя улучшению диагностических возможностей. #### Выводы GENRE-CMR представляет собой продвинутую архитектуру для ускоренной реконструкции CMR с высоким качеством и генеральной ценностью. Она обеспечивает высокую точность при работе с разными протоколами. Будущие исследования будут сконцентрированы на расширении применения модели к другим типам медицинских изображений и оптимизации для реализации в клинических условиях.

Annotation:

Accelerated Cardiovascular Magnetic Resonance (CMR) image reconstruction remains a critical challenge due to the trade-off between scan time and image quality, particularly when generalizing across diverse acquisition settings. We propose GENRE-CMR, a generative adversarial network (GAN)-based architecture employing a residual deep unrolled reconstruction framework to enhance reconstruction fidelity and generalization. The architecture unrolls iterative optimization into a cascade of convolution...

ID: 2508.20600v1 eess.IV, cs.CV

arXiv PDF

1
2
14
15
16
17
18
26
27

Показано 151 - 160 из 268 записей