📚 Саммари научных статей из arXiv

Найдено 100 результатов по запросу 'eess.IV, cs.AI, cs.CV' Сбросить поиск

📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 Large-scale Multi-sequence Pretraining for Generalizable MRI Analysis in Versatile Clinical Applications

2025-08-13

Авторы:

Zelin Qiu, Xi Wang, Zhuoyao Xie, Juan Zhou, Yu Wang, Lingjie Yang, Xinrui Jiang, Juyoung Bae, Moo Hyun Son, Qiang Ye, Dexuan Chen, Rui Zhang, Tao Li, Neeraj Ramesh Mahboobani, Varut Vardhanabhuti, Xiaohui Duan, Yinghua Zhao, Hao Chen

#### Контекст Многосеквентное магнитное резонансное исследование (МРИ) является важной методикой в радиологии, позволяющей различать разные типы тканей благодаря использованию различных секвенций. Однако, несмотря на свою гибкость, данная методика сталкивается с значительными проблемами в области генерализуемости динамических моделей, особенно в случае с изменением параметров активации. Эти модели часто сталкиваются с проблемой недостаточной универсальности при применении к разнородным данным, что затрудняет их адаптацию к различным клиническим задачам. Большинство существующих моделей не включают в свой кадр различные секвенции МРИ, что приводит к потерям в общей универсальности и стабильности моделей. Таким образом, существует необходимость в разработке моделей, которые могут объединить различные секвенции МРИ, чтобы обеспечить лучшую прогностическую способность, активность и общую генерализуемость. #### Метод Мы предлагаем PRISM (PRe-trained with large-scale multI-Sequence MRI) как основную модель с предварительной обученной сетью, которая подразумевает расширенную многосеквентную обработку MRI. Мы собрали большую коллекцию данных из 64 различных наборов данных, включая 8 публичных и 26 частных датасетов, содержащих видео изображения, полученные с различных секвенций МРИ. Для построения основной модели мы использовали 336,476 вольтровных МРИ-сканов, различающихся по типу тканей и исследовательским подходом. Предлагаемая модель включает в свой архитектурный подход два основных момента: 1. Отделение анатомически независимых функций от последовательностей, связанных с МРИ. 2. Обеспечение высокоуровневых семантических представлений, которые могут быть использованы для различных задач в клинической практике. Мы использовали нелинейные модели, которые были обучены с помощью данных с различных секвенций, чтобы сформировать общую модель, удовлетворяющую требованиям многозначной клинической аналитики. #### Результаты Мы проводили эксперименты для оценки модели PRISM на 44 различных клинических задачах, включая задачи диагностики, сегментации изображений, регистрации, прогноза течения заболевания и генерации текстовых отчетов. Модель была проверена на 32 публичных и 5 частных когортных данных. Результаты показали, что PRISM стабильно выполняет лучше остальных непредварительно обученных моделей и даже некоторых существующих основных моделей. Она достигла победы с статистически значимыми улучшениями в 39 из 44 задач, что демонстрирует ее высокую генерализуемость и устойчивость к различным секвенци

Annotation:

Multi-sequence Magnetic Resonance Imaging (MRI) offers remarkable versatility, enabling the distinct visualization of different tissue types. Nevertheless, the inherent heterogeneity among MRI sequences poses significant challenges to the generalization capability of deep learning models. These challenges undermine model performance when faced with varying acquisition parameters, thereby severely restricting their clinical utility. In this study, we present PRISM, a foundation model PRe-trained ...

ID: 2508.07165v1 eess.IV, cs.AI, cs.CV

arXiv PDF

📄 PCA-Guided Autoencoding for Structured Dimensionality Reduction in Active Infrared Thermography

2025-08-13

Авторы:

Mohammed Salah, Numan Saeed, Davor Svetinovic, Stefano Sfarra, Mohammed Omar, Yusra Abdulrahman

## Контекст Active Infrared Thermography (AIRT) является эффективной методом неразрушающего контроля (NDT) для открытия подкристальных аномалий в промышленных компонентах. Однако, большая высокомерность данных AIRT представляет значимые вызовы для различных методов обработки и анализа. Нейронные сети с нелинейными автокодировщиками (AEs) широко используются для уменьшения размерности данных AIRT. Тем не менее, в рамках предложенных систем не возникает пространства, ограниченного структурой, что ограничивает их эффективность в задачах характеристики дефектов. Данная работа предлагает PCA-guided autoencoding framework для получения пространства структуры, которое может эффективно характеризировать нелинейные функции в AIRT, улучшая точность дефектной классификации. ## Метод Предлагаемый PCA-guided autoencoding framework объединяет автокодировщик нейронной сети с методом главных компонент (PCA) для достижения лучшей структурированности в пространстве нейросетевого автокодировщика. Основной инновацией является введение новой функции потерь, названной PCA distillation loss, которая принудительно выравнивает репрезентации нейросети с компонентами PCA. Эта концепция позволяет нейросети присвоить более структурированные веса, улучшая понимание информации в данных AIRT. Для оценки того, насколько пространство характеризует дефекты, предлагается метрика, основанная на нейросетевых моделях, которая анализирует контраст, значение сигнала к шуму (SNR) и эффективность решения задачи. ## Результаты В процессе экспериментов применялись данные из области AIRT, собранные на материалах PVC, CFRP и PLA. Результаты показали, что PCA-guided AE превосходит современные методы уменьшения размерности данных по критериям, таким как контраст, SNR и метрики нейросети. Эти результаты указывают на эффективность в том, что пространство, полученное с помощью PCA-guided AE, характеризует дефекты намного лучше, чем другие методы. Эти результаты отражают то, что структурированное пространство, введенное в PCA distillation loss, позволяет нейросети лучше интерпретировать и выделить нелинейные функции в AIRT. ## Значимость Полученные результаты открывают новые возможности для применения PCA-guided AE в области NDT, особенно в области обнаружения дефектов в материалах PVC, CFRP и PLA. Эта модель может быть применена в различных промышленных секторах, где NDT является критичным. Благодаря структурированному пространству, PCA-guided AE обеспечивает точные данные для выявления дефектов, улучшая возможности обнаружения и мониторинга. Данный подход также показал свою ценность в улучшении общей эффективности и точности AIRT в области NDT. ## Выводы В целом, предложенная PCA-

Annotation:

Active Infrared thermography (AIRT) is a widely adopted non-destructive testing (NDT) technique for detecting subsurface anomalies in industrial components. Due to the high dimensionality of AIRT data, current approaches employ non-linear autoencoders (AEs) for dimensionality reduction. However, the latent space learned by AIRT AEs lacks structure, limiting their effectiveness in downstream defect characterization tasks. To address this limitation, this paper proposes a principal component analy...

ID: 2508.07773v1 eess.IV, cs.AI, cs.CV, cs.LG

arXiv PDF

📄 MIND: A Noise-Adaptive Denoising Framework for Medical Images Integrating Multi-Scale Transformer

2025-08-13

Авторы:

Tao Tang, Chengxu Yang

## Контекст В области медицинской имейджинга высокая точность диагностики и терапии зависит от качества изображений. Однако, из-за таких факторов, как низкодозная съемка, ограничения оборудования и импульсные искажения, медицинские изображения часто подвержены неоднородному шуму, который сильно сказывается на распознавании структур и обнаружении поражений. Это существенно снижает качество клинической оценки и последующих диагностических задач. Для решения этой проблемы необходимо разработать мощный метод адаптивного денойсинга, который бы учитывал многомерные особенности шума и повышал чувствительность диагностики. ## Метод Предлагаемый фреймворк MIND (Noise-Adaptive Denoising Framework for Medical Images) основывается на сочетании мульти-скайла конволюционных и Transformer-архитектур. Основные компоненты: Noise Level Estimator (NLE), который оценивает градации шума на уровне каналов, и Noise Adaptive Attention Module (NAAB), реализующий кросс-канальное внимание и фузирование спектрально-пространственных признаков. Модель использует сильно выраженный канально-пространственный регулятор при помощи преобразований, взвешенных в соответствии с генерируемым шумом. Данная архитектура позволяет реализовать эффективное кросс-модальное обучение и адаптацию к различным типам шумов в медицинских изображениях. ## Результаты Систематические эксперименты проводились на многомодальных публичных датасетах, включая традиционные и специальные модели шума. Исследования показали, что MIND существенно превосходит существующие методы по таким показателям как PSNR, SSIM и LPIPS, а также повышает F1-меру и ROC-AUC в задачах диагностики. Это свидетельствует о высоком качестве восстановления структур и улучшении значимости диагностических результатов. Модель показала себя как гибкое и эффективное решение для улучшения медицинских изображений и поддержки AI-помощи в клинических задачах. ## Значимость Предложенный подход имеет большое практическое значение в медицинской имейджинге. Он повышает точность диагностики, значительно повышает чувствительность к деталям в изображениях и поддерживает кросс-модальную устойчивость. Это открывает широкие возможности для роботов-диагностиков, повышения эффективности лечения и новых возможностей в нейромашинных исследованиях. Будущие исследования будут нацелены на повышение скорости модели, а также на расширение ее применения к нестандартным типам шумов и более сложным диагностическим сценариям. ## Выводы Разработанный фреймворк MIND доказал свою эффективность в адаптивном денойсинге медицинских и

Annotation:

The core role of medical images in disease diagnosis makes their quality directly affect the accuracy of clinical judgment. However, due to factors such as low-dose scanning, equipment limitations and imaging artifacts, medical images are often accompanied by non-uniform noise interference, which seriously affects structure recognition and lesion detection. This paper proposes a medical image adaptive denoising model (MI-ND) that integrates multi-scale convolutional and Transformer architecture,...

ID: 2508.07817v1 eess.IV, cs.AI, cs.CV, cs.LG, cs.MM

arXiv PDF

📄 Towards Human-AI Collaboration System for the Detection of Invasive Ductal Carcinoma in Histopathology Images

2025-08-13

Авторы:

Shuo Han, Ahmed Karam Eldaly, Solomon Sunday Oyelere

#### Контекст Одна из наиболее распространенных форм рака молочной железы — инвазивный дукатский карцинома (IDC). Оперативное и точное диагностирование IDC является критически важной задачей для улучшения перспектив выживания пациентов и оптимизации терапии. Однако диагностика IDC часто сталкивается с вызовами, такими как многообразие сочетаний симптомов и неоднозначность в интерпретации клинических данных. Это открывает простор для развития новых методов, которые могут повысить точность диагностики. Использование глубокого обучения в сочетании с знаниями медицинских экспертов может стать мощным инструментом для улучшения роли AI в диагностике IDC. #### Метод Предлагаемая модель основывается на EfficientNetV2S — высокоэффективной сверточной нейронной сети. Эта модель используется в качестве основного диагностического средства для идентификации IDC в изображениях гистопатологии. Она предлагает первичную диагностику, которая последующим образом оценивается или корректируется медицинским экспертом. Для создания цикла взаимодействия между AI и человеком используется технология human-in-the-loop (HITL). В этой модели люди могут исправлять неточные диагнозы модели, и эти изменения включаются в обучающий набор данных. Эта модель обладает сверточной архитектурой и адаптивным обучением, что позволяет ей выполняться с высокой точностью и эффективностью. #### Результаты Модель EfficientNetV2S была протестирована на большом наборе данных исторических изображений. Она достигла без HITL-системы точности 93,65%. В экспериментальных испытаниях, в которых применялись исправления от людей, точность повысилась до 94,89% при использовании 4-х групп многообразия ключевых ошибок. Это показало, что HITL-система может значительно улучшить точность диагностики, при этом учитывая знания экспертов. Эти результаты демонстрируют потенциал комбинации AI и человеческих знаний для повышения точности в диагностике IDC. #### Значимость Предлагаемый подход может применяться в медицине для раннего и точного диагностирования IDC, что может существенно повысить вероятность успешного лечения. Он также может быть применен в других областях медицинской диагностики, где требуется высокая точность и быстрота. Система HITL улучшает стандарты проверки данных в медицине, обеспечивая более точный и эффективный подход. Этот подход может повлиять на будущие исследования в области AI-ассистированных диагностических систем, продвигая их в высокоточную и многоуровневую диагностику. #### Выводы В результате, текущая модель показывает перспективу в раз

Annotation:

Invasive ductal carcinoma (IDC) is the most prevalent form of breast cancer, and early, accurate diagnosis is critical to improving patient survival rates by guiding treatment decisions. Combining medical expertise with artificial intelligence (AI) holds significant promise for enhancing the precision and efficiency of IDC detection. In this work, we propose a human-in-the-loop (HITL) deep learning system designed to detect IDC in histopathology images. The system begins with an initial diagnosi...

ID: 2508.07875v1 eess.IV, cs.AI, cs.CV, cs.HC

arXiv PDF

📄 Diffusing the Blind Spot: Uterine MRI Synthesis with Diffusion Models

2025-08-13

Авторы:

Johanna P. Müller, Anika Knupfer, Pedro Blöss, Edoardo Berardi Vittur, Bernhard Kainz, Jana Hutter

## Контекст Гинекологическое исследование часто сталкивается с ограничениями, связанными с данными и конфиденциальностью пациентов. Недостаток предварительно подготовленных данных для обучения моделей снижает качество диагностики и затрудняет развитие искусственного интеллекта в этой области. Неудовлетворительное качество синтезированных изображений порождает дополнительные затруднения в обучении и тестировании алгоритмов. Наша мотивация заключается в создании модели, которая бы способствовала более точной диагностике, повысила качество синтеза и обеспечила доступ к большому количеству тренировочных данных. ## Метод Мы предлагаем развитие нового фреймворка на основе моделей Denoising Diffusion Probabilistic Models (DDPMs) и Latent Diffusion Models (LDMs) для 2D и 3D утробных MRI. Модель сочетает генерируемый синтетический процесс с обучением с учетом ограничений данных. Мы используем как некондиционированные, так и кондиционированные модели для повышения реалистичности и соответствия реальным сканам. Архитектура модели оптимизирована для точного воссоздания анатомических деталей и контекста изображений. ## Результаты Мы провели эксперименты на большом наборе данных с реальными и синтетическими утробными MRI. Результаты показали, что наша модель превосходит существующие методы по метрикам качества изображений и соответствию реальности. Обученные модели диагностических моделей показали существенное повышение точности при классификации. Кроме того, оценка квалифицированным специалистом подтвердила, что синтетические изображения сохраняют клиническую реалистичность. ## Значимость Наш фреймворк может применяться в сфере диагностики, генерирования тренировочных данных и исследования в области гинекологии. Он предлагает существенные преимущества, такие как улучшенная точность диагностики, оптимизация процесса обучения и уменьшение затрат на подготовку данных. Будущие исследования будут фокусироваться на расширении моделей для других видов МРТ и интеграции моделей в повседневные практики диагностики. ## Выводы Мы представляем современный подход к синтезу утробных MRI, который дает высококачественные и анатомически корректные изображения. Наши результаты показывают значительные достижения в диагностике и моделировании данных. Мы считаем, что будущие работы должны направляться на улучшение моделей, сокращение недостатков данных и повышение доступности искусственного интеллекта в гинекологии.

Annotation:

Despite significant progress in generative modelling, existing diffusion models often struggle to produce anatomically precise female pelvic images, limiting their application in gynaecological imaging, where data scarcity and patient privacy concerns are critical. To overcome these barriers, we introduce a novel diffusion-based framework for uterine MRI synthesis, integrating both unconditional and conditioned Denoising Diffusion Probabilistic Models (DDPMs) and Latent Diffusion Models (LDMs) i...

ID: 2508.07903v1 eess.IV, cs.AI, cs.CV

arXiv PDF

📄 RedDino: A foundation model for red blood cell analysis

2025-08-13

Авторы:

Luca Zedda, Andrea Loddo, Cecilia Di Ruberto, Carsten Marr

#### Контекст Красные кровяные тельца (RBC) являются основным элементом здоровья человека, и их точная морфологическая анализировать необходимо для диагностики гематологических расстройств. Однако существуют ограничения в современных методах анализа RBC, включая точность, скорость и универсальность. Несмотря на то, что фундаментальные модели показали свою эффективность в медицинской диагностике, есть недостаточно решений, ориентированных на комплексный анализ RBC. Мы предлагаем RedDino, новый самостоятельный фундаментальный метод для анализа RBC, который стремится преодолеть эти ограничения. #### Метод RedDino основывается на DINOv2, адаптированном для анализа RBC. Мы усовершенствовали архитектуру модели, используя нейронные сети с аттенцией и адаптировав её для обработки изображений RBC. Модель обучена на большом датасете, содержащем 1,25 миллиона изображений RBC, полученных из различных источников и с различными методами аккумуляции. Данные были тщательно курированы, чтобы обеспечить высокий качественный анализ. Мы проводили подробные эксперименты, включая проверки линейной обработки и классификации ближайших соседей, для оценки мощности и общей способности модели. #### Результаты RedDino показал выдающиеся результаты в классификации морфологии RBC, превосходя существующие модели. Мы провели ряд экспериментов для оценки её универсальности и точности. Модель продемонстрировала свою способность правильно различать разные типы RBC, даже при нестандартных условиях анализа. Мы также осуществили более глубокий анализ особенностей, установив, что модель способна хранить замысловатые морфологические параметры. #### Значимость RedDino может применяться в медицинской диагностике, особенно для обнаружения и анализа гематологических расстройств. Он предлагает более сложный и точный подход к анализу RBC по сравнению с традиционными методами. Из основных преимуществ модели можно отметить высокую точность, широкую область применения и универсальность, которая делает её подходить для разных типов анализа RBC. #### Выводы RedDino достиг выдающихся результатов в области анализа RBC, адресуя ключевые вызовы в гематологии. Наша работа открывает новые пути для развития систем автоматического анализа RBC, которые могут существенно улучшить точность диагностики. Мы планируем продолжить расширение RedDino, в том числе расширение датасета, оптимизацию модели и её применение в реальных клинических ситуациях.

Annotation:

Red blood cells (RBCs) are essential to human health, and their precise morphological analysis is important for diagnosing hematological disorders. Despite the promise of foundation models in medical diagnostics, comprehensive AI solutions for RBC analysis remain scarce. We present RedDino, a self-supervised foundation model designed for RBC image analysis. RedDino uses an RBC-specific adaptation of the DINOv2 self-supervised learning framework and is trained on a curated dataset of 1.25 million...

ID: 2508.08180v1 eess.IV, cs.AI, cs.CV

arXiv PDF

📄 Advanced Deep Learning Techniques for Accurate Lung Cancer Detection and Classification

2025-08-12

Авторы:

Mobarak Abumohsen, Enrique Costa-Montenegro, Silvia García-Méndez, Amani Yousef Owda, Majdi Owda

## Контекст Логопатология является одной из наиболее распространенных и серьезных заболеваний в мире. Она широко распространена среди мужчин и женщин во всех возрастных группах и является одной из ведущих причин смертности. Основной метод диагностики логопатологии — это Компьютерная Томография (CT), благодаря ее доступности и быстродействию. Однако существующие методы анализа CT-изображений часто сталкиваются с проблемами, такими как высокая частота ложных срабатываний и низкая точность. Эти проблемы возникают из-за недостатка бо Lаборируемых данных и несбалансированности данных, что приводит к ошибкам в классификации. Данная работа предлагает инновационный подход к диагностике и классификации логопатологии, используя модель DenseNet201, которая способна улучшить точность диагностики и уменьшить частоту ложных срабатываний. ## Метод Предлагаемый подход основывается на модели DenseNet201, которая была адаптирована для обработки CT-изображений. Метод включает несколько техник, повышающих точность: **Focal Loss**, **Data Augmentation** и **Regularization**. Focal Loss помогает уменьшить влияние несбалансированных классов, а Data Augmentation увеличивает разнообразие обучающих данных, что снижает риск overfitting. Regularization также используется для уменьшения переобучения. Данные были собраны из различных источников, обработаны и калиброваны, чтобы обеспечить высокую точность. ## Результаты Проведенные эксперименты показали высокую эффективность предложенного подхода. Точность диагностики составила **98.95%**, что является одним из наиболее высоких показателей в области диагностики логопатологии. Эти результаты были получены на тестовых наборах данных, которые были тщательно подготовлены и проверены на отсутствие ошибок. Также было произведено сравнение с другими методами, включая традиционные методы машинного обучения, чтобы подтвердить преимущество предложенного подхода. ## Значимость Предложенный подход может быть применен в различных областях медицины, в частности, в диагностике и мониторинге логопатологии. Он обеспечивает высокую точность и снижает частоту ошибок, что позволяет улучшить качество диагностики и снизить общую стоимость процесса. Благодаря использованию DenseNet201 и техник, уменьшающих риск переобучения, подход является универсальным и применимым к различным вариантам заболевания. Это может привести к значительным улучшениям в лечении и контроле логопатологии. ## Выводы Предложенный подход доказал свою эффективность в диагностике и классификации логопатологии с помощью CT-изображений. Он имеет многочисленные преим

Annotation:

Lung cancer (LC) ranks among the most frequently diagnosed cancers and is one of the most common causes of death for men and women worldwide. Computed Tomography (CT) images are the most preferred diagnosis method because of their low cost and their faster processing times. Many researchers have proposed various ways of identifying lung cancer using CT images. However, such techniques suffer from significant false positives, leading to low accuracy. The fundamental reason results from employing ...

ID: 2508.06287v1 eess.IV, cs.AI, cs.CV

arXiv PDF

📄 ClinicalFMamba: Advancing Clinical Assessment using Mamba-based Multimodal Neuroimaging Fusion

2025-08-09

Авторы:

Meng Zhou, Farzad Khalvati

**Резюме** В статье предлагается ClinicalFMamba — новая CNN-Mamba гибридная архитектура для эффективной фуссии медицинских изображений. Она синергетически объединяет моделирование локальных и глобальных признаков для 2D и 3D случаев. Для обработки 3D-данных разработана стратегия сканирования с помощью tri-plane. Вы most likely показаны высококачественные результаты фуссии на трех датасетах, с выдачей лучших метрик и реального времени обработки. Кроме того, модель показала свою клиническую эффективность на задачах классификации локализации геморрагов и туморов мозга, превзойдя стандарты методов. Это предлагаемое решение ставит новый парадигму для реального времени фуссии медицинских изображений.

Annotation:

Multimodal medical image fusion integrates complementary information from different imaging modalities to enhance diagnostic accuracy and treatment planning. While deep learning methods have advanced performance, existing approaches face critical limitations: Convolutional Neural Networks (CNNs) excel at local feature extraction but struggle to model global context effectively, while Transformers achieve superior long-range modeling at the cost of quadratic computational complexity, limiting cli...

ID: 2508.03008v1 eess.IV, cs.AI, cs.CV

arXiv PDF

📄 When Deep Learning Fails: Limitations of Recurrent Models on Stroke-Based Handwriting for Alzheimer's Disease Detection

2025-08-09

Авторы:

Emanuele Nardone, Tiziana D'Alessandro, Francesco Fontanella, Claudio De Stefano

Обнаружение болезни Альцгеймера (AD) часто требует дорогостоящих нейроимажирований или инвазивных процедур, что снижает доступность диагностики. В данном исследовании исследовались возможности глубокого обучения для нейроинвазивной диагностики AD на основе анализа рукописи. Использовался датасет из 34 заданий по рукописи, собранных у здоровых участников и пациентов с AD. Здесь предлагается подход, в котором рекуррентные нейронные сети (LSTM, GRU, RNN) обучаются на предварительно извлеченных признаках рисунков, а не на непрерывных временных сигналах. Это нарушает основное предположение рекуррентных сетей о непрерывном потоке данных. Исследование показало, что рекуррентные архитектуры сталкиваются с повышенной вариабельностью и недостаточной специфичностью. Точность рекуррентных архитектур оказалась значительно ниже, чем у традиционных методов машинного обучения, которые показали лучший баланс между точностью и метриками обобщаемости. Научная статья подчеркивает ограниченность рекуррентных моделей при работе с дискретными признаками рукописи и выделяет направления для будущих исследований.

Annotation:

Alzheimer's disease detection requires expensive neuroimaging or invasive procedures, limiting accessibility. This study explores whether deep learning can enable non-invasive Alzheimer's disease detection through handwriting analysis. Using a dataset of 34 distinct handwriting tasks collected from healthy controls and Alzheimer's disease patients, we evaluate and compare three recurrent neural architectures (LSTM, GRU, RNN) against traditional machine learning models. A crucial distinction of o...

ID: 2508.03773v1 eess.IV, cs.AI, cs.CV

arXiv PDF

📄 Coarse-to-Fine Joint Registration of MR and Ultrasound Images via Imaging Style Transfer

2025-08-09

Авторы:

Junyi Wang, Xi Zhu, Yikun Guo, Zixi Wang, Haichuan Gao, Le Zhang, Fan Zhang

## КОНТЕКСТ И ПРОБЛЕМАТИКА Регистрация магнитно-резонансных (MR) и ультразвуковых (US) изображений представляет собой критически важную задачу в нейрохирургии, особенно при планировании и навигации во время операций по удалению опухолей головного мозга. Современная нейрохирургическая практика требует точного совмещения предоперационных данных МРТ, которые предоставляют высококонтрастные анатомические структуры, с пострезекционными ультразвуковыми изображениями, которые позволяют врачам в реальном времени оценить полноту удаления опухолевой ткани. Однако существует ряд фундаментальных проблем, которые препятствуют эффективной регистрации этих модальностей. Первая и наиболее значительная проблема заключается в кардинальном различии физических принципов формирования изображений. МРТ использует ядерный магнетизм и радиочастотные импульсы для создания детализированных анатомических снимков, тогда как ультразвук основан на отражении акустических волн, что приводит к значительно более низкому пространственному разрешению и различным типам артефактов. Это различие приводит к тому, что даже одна и та же анатомическая структура будет выглядеть совершенно по-разному на изображениях разных модальностей. Вторая проблема связана с изменениями, происходящими в мозге во время операции. После вмешательства происходит смещение мозговых тканей, изменение формы желудочков, появление отёков и гематом, что делает прямую точечную регистрацию предоперационных и постоперационных изображений практически невозможной. Традиционные методы регистрации, основанные на сопоставлении интенсивностей пикселей, оказываются неэффективными из-за этих драматических изменений. Кроме того, существует проблема отсутствия парных данных для обучения. Получение идеально зарегистрированных пар MR-US изображений представляет собой трудоемкий и дорогостоящий процесс, который требует участия экспертов-радиологов и нейрохирургов. Это ограничивает возможности применения методов глубокого обучения, которые требуют больших объемов обучающих данных. ## ПРЕДЛОЖЕННЫЙ МЕТОД Авторы статьи предлагают инновационный многоступенчатый подход к регистрации MR и US изображений, который решает описанные проблемы через комбинацию нейростилевого переноса и крупномасштабной деформируемой регистрации. Центральным элементом предложенной методики является использование 3D CycleGAN для генерации синтетических T1-взвешенных MR изображений из ультразвуковых данных, что позволяет существенно уменьшить разрыв между модальностями. Архитектура CycleGAN адаптирована для работы с трехмерными медицинскими изображениями. Генераторы модели используют 3D сверточные слои с пропусками (dilated convolutions) для увеличения рецептивного поля и эффективного захвата долгосрочных зависимостей в пространственных данных. Дискриминаторы реализованы в виде 3D PatchGAN, которые оценивают реалистичность локальных патчей размером 70x70x70 вокселей. Для стабилизации обучения применяется спектральная нормализация в слоях дискриминатора и цикловая консистентная потеря, которая гарантирует, что обратное преобразование восстановит исходное изображение. Процесс регистрации организован по схеме "грубо-к-тонкому" (coarse-to-fine). На первом этапе применяется аффинное преобразование, которое выполняет глобальное выравнивание изображений через вращение, масштабирование и трансляцию. Для оптимизации аффинных параметров используется нормализованная взаимная информация в качестве функции потерь, что позволяет эффективно работать даже при значительных различиях в интенсивностях между модальностями. На втором этапе реализуется локальная деформируемая регистрация с использованием свободно деформируемой модели (free-form deformation) на основе B-сплайнов. Деформационное поле параметризуется регулярной сеткой контрольных точек, где каждая точка может смещаться в трех направлениях. Для предотвращения чрезмерной деформации применяется гладкое регуляризационное слагаемое, которое штрафует большие значения градиентов деформационного поля. Оптимизация выполняется через градиентный спуск с адаптивным шагом обучения. ## ЭКСПЕРИМЕН

Annotation:

We developed a pipeline for registering pre-surgery Magnetic Resonance (MR) images and post-resection Ultrasound (US) images. Our approach leverages unpaired style transfer using 3D CycleGAN to generate synthetic T1 images, thereby enhancing registration performance. Additionally, our registration process employs both affine and local deformable transformations for a coarse-to-fine registration. The results demonstrate that our approach improves the consistency between MR and US image pairs in m...

ID: 2508.05240v1 eess.IV, cs.AI, cs.CV

arXiv PDF

1
2
8
9
10

Показано 91 - 100 из 100 записей