📚 Саммари научных статей из arXiv

Найдено 268 результатов по запросу 'eess.IV, cs.CV' Сбросить поиск

📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 0

Последнее обновление: сегодня

📄 Spatio-Temporal Conditional Diffusion Models for Forecasting Future Multiple Sclerosis Lesion Masks Conditioned on Treatments

2025-08-13

Авторы:

Gian Mario Favero, Ge Ya Luo, Nima Fathi, Justin Szeto, Douglas L. Arnold, Brennan Nichyporuk, Chris Pal, Tal Arbel

## Контекст Многие заболевания, включая Множественные Склероз (МС), протекают неодинаково и зависят от многих факторов, в том числе лечения и различных клинических особенностей. Изучение этого хаотического процесса является ключевым для улучшения прогнозирования и лечения таких заболеваний. Несмотря на то, что имеется много работ по созданию моделей прогностических масок для МС, существуют значительные проблемы, такие как скрытые зависимости от лечения, недостаточная точность и отсутствие специфики к индивидуальному пациенту. Наша модель предназначена для решения этих проблем, используя инновационные методы генерирования изображений, чтобы предоставить более точное и личностно-ориентированное прогнозирование здоровья. ## Метод Мы предлагаем первую модель, которая использует синергетические способности спектрально-временной модели. Метод основан на методике условных достаточностей для временных последовательностей, включая информацию о лечении. Мы разработали архитектуру, которая учитывает все необходимые мультимодальные данные, включая изображения MRI и клинические данные о лечении. Модель использует архитектуру "diffusion model", которая позволяет формировать уточненные прогнозы для т fuтурных масок NET2. Эта модель также включает каскадное уточнение, что дает ей возможность учитывать динамические изменения в реальном времени и улучшать точность прогнозов. ## Результаты Мы провели исследования на большом многоцентровом наборе данных, содержащем 2131 трехмерных MRI от пациентов с МС. Модель была тестирована на случаях с разными лечениями и показала высокую достоверность в прогнозировании новых и увеличивающихся T2-масок (NET2) в будущем. Мы также проводили эксперименты на задачах, таких как оценка количества новых лесеньев, их расположение и классификация активности лесеньев. Результаты показали, что наша модель превосходит конкурентные модели в тех же задачах, обеспечивая более точные и предсказуемые результаты. ## Значимость Наша модель может сыграть важную роль в создании новых подходов к подтверждению лечений и прогностическому анализу в многих областях медицины. Она может быть использована для личностно-ориентированного лечения, обеспечения более точных прогнозов и раннего выявления проблем. Модель также имеет потенциал для распространения на другие заболевания, характеризующиеся хроническим или неоднородным прогрессом, такие как диабет или раковые заболевания. Это демонстрирует важность использования искусственного интеллекта в медицинской информатике. ## Выводы Мы представляем первую модель, которая объединя

Annotation:

Image-based personalized medicine has the potential to transform healthcare, particularly for diseases that exhibit heterogeneous progression such as Multiple Sclerosis (MS). In this work, we introduce the first treatment-aware spatio-temporal diffusion model that is able to generate future masks demonstrating lesion evolution in MS. Our voxel-space approach incorporates multi-modal patient data, including MRI and treatment information, to forecast new and enlarging T2 (NET2) lesion masks at a f...

ID: 2508.07006v1 eess.IV, cs.CV

arXiv PDF

📄 3DGS-VBench: A Comprehensive Video Quality Evaluation Benchmark for 3DGS Compression

2025-08-13

Авторы:

Yuke Xing, William Gordon, Qi Yang, Kaifa Yang, Jiarui Wang, Yiling Xu

## Контекст 3D Gaussian Splatting (3DGS) — это метод, позволяющий реализовать реального времени нового просмотра с высокой визуальной точностью. Однако огромные системные требования к памяти препятствуют его распространению в практических приложениях. В связи с этим, современные алгоритмы 3DGS включают модули сжатия, которые позволяют сократить объем необходимой памяти. Однако эти сжимающие техники вводят уникальные дефекты, которые еще не подробно исследованы в полезных системах. Для снятия этого препятствия, мы разработали 3DGS-VBench — большую коллекцию видео-качественной оценки (VQA), содержащую 660 сжатых 3DGS-моделей и видео-последовательности, полученные из 11 сцен с использованием 6 современных 3DGS-алгоритмов с различными параметрами. ## Метод 3DGS-VBench был разработан с целью постановки конкретных проблем для компрессии 3DGS с разными параметрами. Мы использовали 6 алгоритмов сжатия 3DGS, примененные к 11 сценам, и готовили 660 видео-последовательностей. Для каждой последовательности мы провели экспериментные оценки с 50 участниками, которые дали свои оценки по Мотивационному Отношению (MOS). После отбора выбросов мы получили надежные результаты, которые позволяют оценить эффективность сжатия и качество визуализации с использованием разных методов. ## Результаты Мы проверили 6 алгоритмов сжатия 3DGS, оценив их эффективность в хранении и качество визуализации на основе 15 методик оценки качества. Наши результаты показали, что каждый алгоритм имеет свои сильные стороны и слабые места, что дает возможность выбрать наиболее подходящий для конкретной задачи. Благодаря нашему новому бенчмарку, мы можем проводить специализированные эксперименты для развития методов сжатия и качества видео. ## Значимость 3DGS-VBench может быть применен в различных областях, таких как искусственный интеллект, виртуальная реальность и мобильные приложения. Он предоставляет новые возможности для развития методов сжатия и качества видео, позволяя разработчикам сфокусироваться на точных и целевых экспериментах. Мы видим, что наш бенчмарк может стать ключевым инструментом для повышения эффективности сжатия и видео-качества в 3DGS. ## Выводы Мы разработали 3DGS-VBench, который является первым подобным бенчмарком для оценки качества видео в 3DGS. Наши результаты демонстрируют значительные достижения в области сжатия и качества видео. Наша работа открывает новые пути для будущих исследований в этой области, способствуя повышению качества 3DGS-компрессии и видео-процессинга.

Annotation:

3D Gaussian Splatting (3DGS) enables real-time novel view synthesis with high visual fidelity, but its substantial storage requirements hinder practical deployment, prompting state-of-the-art (SOTA) 3DGS methods to incorporate compression modules. However, these 3DGS generative compression techniques introduce unique distortions lacking systematic quality assessment research. To this end, we establish 3DGS-VBench, a large-scale Video Quality Assessment (VQA) Dataset and Benchmark with 660 compre...

ID: 2508.07038v1 eess.IV, cs.CV

arXiv PDF

📄 SAGCNet: Spatial-Aware Graph Completion Network for Missing Slice Imputation in Population CMR Imaging

2025-08-13

Авторы:

Junkai Liu, Nay Aung, Theodoros N. Arvanitis, Stefan K. Piechnik, Joao A C Lima, Steffen E. Petersen, Le Zhang

## Контекст Магнитно-резонансное исследование (MRI) является важной методикой в диагностике и мониторинге различных заболеваний, но его надежность может сильно ухудшиться из-за отсутствия или неизлечимого повреждения отдельных срезов изображений. Это проблема возникает в результате неполадок при съемке, помехах в приборе или ограничений во времени. Чтобы улучшить точность диагностики, разработаны методики, которые способны восстанавливать отсутствующие срезы с помощью использования доступных изображений. Однако в случае с трехмерными данными, такими как сердечно-мозговая магнитно-резонансная импедансция (CMR), эти задачи становятся сложнее из-за отсутствия эффективных способов моделирования связей между срезами и полного использования трёхмерной структуры данных. Это подчеркивает необходимость развития более гибких и продвинутых систем, которые могут эффективно обрабатывать и восстанавливать отсутствующие срезы в CMR-изображениях. ## Метод Мы предлагаем Spatial-Aware Graph Completion Network (SAGCNet), сочетающую несколько инновационных приемов для решения проблемы отсутствующих срезов в CMR. Наша система основывается на двух основных модулях: (1) **Создание графа внутри графовой структуры для моделирования связей между срезами**. Это позволяет лучше учитывать зависимости между срезами, которые играют ключевую роль в построении точных синтезированных изображений. (2) **Использование специального компонента, рассматривающего пространственную структуру**, чтобы учитывать трёхмерные отношения внутри изображений во время обучения и синтеза. Эти модули работают вместе, чтобы обеспечить более аккуратное и стабильное восстановление отсутствующих срезов в CMR-изображениях. ## Результаты Мы провели эксперименты на различных типах CMR-данных, включая кардиальные изображения. Наши результаты показали, что SAGCNet превосходит существующие методы в восстановлении отсутствующих срезов как по качеству изображений (с помощью метрик, таких как PSNR и SSIM), так и по точности диагностики (с помощью классических метрик, оценивающих точность восстановления). Это продемонстрировано даже при работе с очень ограниченным количеством доступных срезов, что подкрепляет значимость нашего подхода в реальных клинических условиях. ## Значимость Наши результаты имеют важные последствия для клинической практики. Система SAGCNet может быть применена для повышения точности диагноста в случаях, когда отсутствуют ключевые срезы изображений. Это особенно важно в ситуациях, когда съемка не была полной или были повреждены отдельные срезы.

Annotation:

Magnetic resonance imaging (MRI) provides detailed soft-tissue characteristics that assist in disease diagnosis and screening. However, the accuracy of clinical practice is often hindered by missing or unusable slices due to various factors. Volumetric MRI synthesis methods have been developed to address this issue by imputing missing slices from available ones. The inherent 3D nature of volumetric MRI data, such as cardiac magnetic resonance (CMR), poses significant challenges for missing slice...

ID: 2508.07041v1 eess.IV, cs.CV

arXiv PDF

📄 HaDM-ST: Histology-Assisted Differential Modeling for Spatial Transcriptomics Generation

2025-08-13

Авторы:

Xuepeng Liu, Zheng Jiang, Pinan Zhu, Hanyu Liu, Chao Li

## Контекст Spatial transcriptomics (ST) позволяет изучать пространственное распределение генного выражения в тканях, но текущие технологии сталкиваются с ограниченной разрешающей способностью. Несмотря на развитие методов, основывающихся на H&E-заблюдениях, возникают сложности: (1) выделение значимых каркасов из сложного изображения H&E, (2) точное пространственное выравнивание многомодальных данных в рамках диффузионных подходов и (3) моделирование конкретных характеристик гена в разных каналах выражения. Эти проблемы приводят к снижению точности и релевантности результатов. Мы предлагаем HaDM-ST (Histology-Assisted Differential Modeling for ST Generation), новая модель, которая улучшает разрешение ST, используя H&E-изображения и низкорезольвентные данные ST. ## Метод HaDM-ST состоит из трех основных модулей. 1) **Semantic Distillation Network (SDN)** используется для извлечения релевантных признаков из H&E-изображений. SDN анализирует ключевые характеристики в H&E, позволяя определить местонахождение и источник выражения. 2) **Spatial Alignment Module (SAM)** обеспечивает пиксель-точное выравнивание между H&E и низкорезольвентной ST, чтобы обеспечить корректную алиас-формацию. 3) **Channel-Aware Adversarial Learner (CAAL)** моделирует различия в выражении генов на канальном уровне, улучшая точность и детализацию результатов. Эти модули объединены в единую архитектуру, позволяющую генерировать высокорезольвентные ST-данные с улучшенным пространственным разрешением. ## Результаты Мы провели эксперименты на 200 генах, различных тканей и видов. Результаты показали, что HaDM-ST показывает значительное превосходство по сравнению с другими методами. Он повысил пространственную точность и когерентность выражения генов на высокорезольвентных ST-картах. Оценка показала, что HaDM-ST превосходит существующие подходы в задачах выделения конкретных генов, выражающихся в различных пространственных условиях. ## Значимость HaDM-ST может применяться в многих областях, включая генетическую инженерию, онкологию и разработку новых лекарств. Он обеспечивает детальную информацию о пространственной организации генного выражения, которая может помочь в понимании биологических процессов и разработке новых терапевтических подходов. Наш подход демонстрирует высокую точность и способность моделировать сложные пространственно-временные характеристики, что делает его привлекательным для развития следующих поколений ST-технологий. ## Выводы HaDM-ST является первым высокорезольвентным фреймворком ST, который эффективно использует H&E-изображения и низкорезольвентные ST-данные. Мы демонстрируем его высокую точность и улучшенную моделирование

Annotation:

Spatial transcriptomics (ST) reveals spatial heterogeneity of gene expression, yet its resolution is limited by current platforms. Recent methods enhance resolution via H&E-stained histology, but three major challenges persist: (1) isolating expression-relevant features from visually complex H&E images; (2) achieving spatially precise multimodal alignment in diffusion-based frameworks; and (3) modeling gene-specific variation across expression channels. We propose HaDM-ST (Histology-assisted Dif...

ID: 2508.07225v1 eess.IV, cs.CV, q-bio.QM, 92C40, 68T07, I.2.10; I.4.8

arXiv PDF

📄 DiffVC-OSD: One-Step Diffusion-based Perceptual Neural Video Compression Framework

2025-08-13

Авторы:

Wenzhuo Ma, Zhenzhong Chen

## Контекст В современной информационной среде, где видеоконтент является одним из основных типов данных, возникает необходимость эффективных методов видеокодирования, которые обеспечивают низкие битрейты, высокое качество изображения и эффективность вычислительных ресурсов. Несмотря на прогресс в стандартах кодирования (H.264, H.265) и новые подходы, такие как сжатие на основе подбора фреймов (VVC), некоторые ограничения остаются. Например, в стандарте VVC реализованы многошаговые графы фильтров, которые улучшают качество, но приводят к высоким требованиям к вычислительной мощности. Это ограничивает их применение в реальном времени и мобильных приложениях. Большинство существующих методов сжатия видео, включая глубокие нейросетевые модели, полагаются на многошаговые процессы сжатия и сжатия восстановленного видео, что увеличивает сложность и затраты ресурсов. Из этой мотивации возникает необходимость развития простых, эффективных и высокопроизводительных алгоритмов для видеокодирования. ## Метод Мы предлагаем DiffVC-OSD, новый единошаговый диффузионный фреймворк для перцептивного сжатия видео. Напротив многошаговых диффузионных подходов, DiffVC-OSD использует одношаговый диффузионный модель, что позволяет лучше использовать контекст времени и собственные свойства лиатентного представления. В центре DiffVC-OSD лежит Temporal Context Adapter, который кодирует входные данные в виде нескольких уровней признаков, чтобы предоставить более тонкую информацию для Denoising Unet. Это позволяет модели лучше учитывать контекст в процессе сжатия. Кроме того, мы внедряем End-to-End Finetuning, чтобы улучшить общую эффективность сжатия. Эти технические решения объединяются в архитектуру, которая упрощает процесс, уменьшает затраты ресурсов и повышает качество видео. ## Результаты Мы провели ряд экспериментов, используя различные данные видео, чтобы оценить производительность DiffVC-OSD. Ключевые показатели, такие как PSNR, SSIM и LPIPS, были вычислены для сравнения с другими стандартными алгоритмами кодирования. Результаты показали, что DiffVC-OSD достигает значительного улучшения показателей качества изображения, особенно в перцептивном плане. Он также достиг до 20-кратного увеличения скорости декодирования в сравнении с многошаговыми диффузионными моделями. Битрейт был снижен на 86.92% по сравнению с ними. Эти результаты демонстрируют преимущества DiffVC-OSD в режимах с низким битрейтом и высокой производительностью. ## Значимость Предлагаемый подход имеет широкие применения в различных сферах, включая мобильные приложения

Annotation:

In this work, we first propose DiffVC-OSD, a One-Step Diffusion-based Perceptual Neural Video Compression framework. Unlike conventional multi-step diffusion-based methods, DiffVC-OSD feeds the reconstructed latent representation directly into a One-Step Diffusion Model, enhancing perceptual quality through a single diffusion step guided by both temporal context and the latent itself. To better leverage temporal dependencies, we design a Temporal Context Adapter that encodes conditional inputs i...

ID: 2508.07682v1 eess.IV, cs.CV

arXiv PDF

📄 Sea-Undistort: A Dataset for Through-Water Image Restoration in High Resolution Airborne Bathymetric Mapping

2025-08-13

Авторы:

Maximilian Kromer, Panagiotis Agrafiotis, Begüm Demir

## Контекст Область батиметрического mappiнга в глубоких водах является ключевой задачей в геодезии и геоинформатике. Однако, в условиях глубоких вод, динамические процессы на поверхности воды, такие как волнообразные склонения и глазковый свет, чрезвычайно сильно воздействуют на качество съемочных материалов, усложняя процесс восстановления батиметрии. На сегодняшний день, нет доступных решений, которые позволяли бы реализовать точную батиметрическую картинку в реальных условиях. Здесь вводится Sea-Undistort, инновационный синтетический датасет, предназначенный для адресации проблем восстановления через-водной съемки. ## Метод Sea-Undistort состоит из 1200 парных изображений размером 512x512, сгенерированных в Blender. Каждая пара включает в себя дистортированное и чистые изображения точек на дне моря. Изображения характеризуются реалистичными эффектами воды, такими как глазковый свет, волны и скатерть. Данные также включают метаданные, такие как параметры камеры, положение солнца и средняя глубина. Этот датасет позволяет осуществить учитывающуюся обучение, которого не было возможно в реальных условиях. ## Результаты По данным Sea-Undistort проведены эксперименты с двумя современными методами восстановления изображений, а также с разработанным ранней этапом фреймворком diffusion-based с early-fusion sun-glint mask. Результаты показали, что разработанный модельный подход дает более точные и полные Digital Surface Models (DSMs) в сравнении с другими методами, особенно в глубинных водах. Модель также существенно уменьшает ошибки батиметрии, избавляется от эффектов глазка и широты, а также восстанавливает детали батиметрии с высоким качеством. ## Значимость Sea-Undistort может быть применен в различных областях, включая батиметрическое маппинг, океанографию и прикладное исследование морских процессов. Он предлагает значительные преимущества в том числе повышенное точность восстановления изображений в условиях сложного водного окружения. Будущие исследования будут направлены на улучшение методологии, а также на её применение в реальных сценариях. ## Выводы Sea-Undistort представляет собой первый синтетический датасет, который позволяет осуществить учитывающуюся обучение для восстановления через-водных съемок в высоком разрешении. Результаты экспериментов показали, что достигнутые результаты открывают новые возможности для точного батиметрического маппинга в глубинных водах. Наша работа показывает потенциал для дальнейшего развития технологий в области аэробатиметрии.

Annotation:

Accurate image-based bathymetric mapping in shallow waters remains challenging due to the complex optical distortions such as wave induced patterns, scattering and sunglint, introduced by the dynamic water surface, the water column properties, and solar illumination. In this work, we introduce Sea-Undistort, a comprehensive synthetic dataset of 1200 paired 512x512 through-water scenes rendered in Blender. Each pair comprises a distortion-free and a distorted view, featuring realistic water effec...

ID: 2508.07760v1 eess.IV, cs.CV, cs.GR

arXiv PDF

📄 Anatomy-Aware Low-Dose CT Denoising via Pretrained Vision Models and Semantic-Guided Contrastive Learning

2025-08-13

Авторы:

Runze Wang, Zeli Chen, Zhiyun Song, Wei Fang, Jiajin Zhang, Danyang Tu, Yuxing Tang, Minfeng Xu, Xianghua Ye, Le Lu, Dakai Jin

## Контекст Задача понижения дозы в компьютерной томографии (LDCT) широко используется для снижения радиационного воздействия при диагностике, однако это приводит к появлению шума и искажений в изображениях. Несмотря на развитие нейронных сетей для решения этой проблемы, большинство методов не учитывают анатомические особенности тканей, что приводит к неудовлетворительным результатам. Мотивация для разработки новых подходов заключается в том, чтобы сочетать анатомические семантические признаки с глубокими аналитическими моделями для повышения точности и качества диагностических изображений. ## Метод Метод ALDEN (Anatomy-aware LDCT Denoising) использует взаимодействие семантических признаков с pretrained vision models (PVMs) и адверсарным, а также контрастным обучением. Основной инновацией является анатомический дискриминатор, который основывается на кросс-аттенции для оценки реализма тканей в реальных изображениях. Дополнительно, введен модуль семантического гидровоздушного струйного баллистического контроля, который сохраняет анатомическую консистенцию путем сравнения признаков PVM для LDCT, denoised CT и NDCT. Это позволяет сохранять тканевые характеристики тела и избавляться от артефактов. ## Результаты Установленные эксперименты проводились на двух LDCT-данных. Результаты показали, что ALDEN превосходит существующие методы по метрикам качества изображений и сохранению анатомических структур. Особо выделяется повышение реализма изображений и уменьшение овер-сглаживания, которое характеризуется методами с предыдущими подходами. Задача многоорганной сегментации (117 структур) подтвердила дополнительную выгоду модели в сохранении анатомических особенностей. ## Значимость Подход ALDEN применим в области диагностики и визуализации медицинских изображений, где требуется высокое качество и анатомическая точность. Избавление от шума и артефактов, в сочетании с сохранением контекста тканей, обеспечивает лучший диагностический потенциал. Этот метод может положительно сказаться на раннем выявлении заболеваний и повышении достоверности диагноза в различных медицинских условиях. ## Выводы Результаты ALDEN указывают на возможность сочетать анатомические семантические признаки с глубокими моделями для подготовки изображений LDCT. Будущие исследования будут направлены на улучшение модели для более широкого выполнения задач в области медицинских изображений и глубокого обучения.

Annotation:

To reduce radiation exposure and improve the diagnostic efficacy of low-dose computed tomography (LDCT), numerous deep learning-based denoising methods have been developed to mitigate noise and artifacts. However, most of these approaches ignore the anatomical semantics of human tissues, which may potentially result in suboptimal denoising outcomes. To address this problem, we propose ALDEN, an anatomy-aware LDCT denoising method that integrates semantic features of pretrained vision models (PVM...

ID: 2508.07788v1 eess.IV, cs.CV

arXiv PDF

📄 Learned Regularization for Microwave Tomography

2025-08-13

Авторы:

Bowen Tong, Hao Chen, Shaorui Guo, Dong Liu

## Контекст Microwave Tomography (MWT) является важной методикой в области медицинского изображения, которая используется для реконструкции диэлектрических свойств тканей на основе измеренных излучаемых электромагнитных полей. Это постановка нелинейной и неопределенной задачи, что создает значительные сложности для существующих методов оптимизации. Хотя многие из них основываются на физических моделях, они часто не могут захватить тонкие детали структур. Непосредственной мотивацией для развития новых подходов является необходимость улучшить точность, стабильность и резкость реконструкции, особенно для сложных анатомических структур. ## Метод Мы предлагаем физико-основанный гибридный подход, который интегрирует модели диффузии в качестве учебных регуляризаторов в рамках схемы переменной данных. Основоположником этого подхода является Single-Step Diffusion Regularization (SSD-Reg) — новая методика, которая внедряет принципы диффузии в процесс итеративной реконструкции. Он предлагает уникальный подход к решению задачи, в котором обеспечивается соответствие как физическим законам, так и явлениям, учитываемым в обучении. Этот подход значительно улучшает робастность и качество реконструкции, особенно для сложных задач. ## Результаты Мы проводили тщательные эксперименты на наборе данных, содержащих различные анатомические структуры. Результаты показали, что SSD-Reg значительно повышает точность и детализацию реконструкции в сравнении с традиционными методами. Использование нашего подхода позволило достичь значительного улучшения восстановления тонких структур, даже при ограниченном объеме данных. Это подтверждает эффективность нашего подхода в решении задачи неопределенности, связанной с MWT. ## Значимость Наш подход имеет широкие перспективы применения в области медицинского изображения, в том числе для диагностики рака и других заболеваний. Он предлагает значительные преимущества, такие как улучшенная точность и стабильность в реконструкции сложных структур. Благодаря интеграции принципов диффузии, наш подход значительно расширяет возможности текущих методов, делая их более эффективными и надежными для практического применения. ## Выводы Мы предложили новый физико-основанный подход к решению задачи неопределенности в MWT, интегрируя модели диффузии в качестве учебных регуляризаторов. Наши результаты показали значительные улучшения в точности и стабильности реконструкции. В будущем мы планируем расширить эту работу, применяя наш подход к другим прикладным задачам в области медицинского изображения.

Annotation:

Microwave Tomography (MWT) aims to reconstruct the dielectric properties of tissues from measured scattered electromagnetic fields. This inverse problem is highly nonlinear and ill-posed, posing significant challenges for conventional optimization-based methods, which, despite being grounded in physical models, often fail to recover fine structural details. Recent deep learning strategies, including end-to-end and post-processing networks, have improved reconstruction quality but typically requi...

ID: 2508.08114v1 eess.IV, cs.CV

arXiv PDF

📄 A Physics-Driven Neural Network with Parameter Embedding for Generating Quantitative MR Maps from Weighted Images

2025-08-13

Авторы:

Lingjing Chen, Chengxiu Zhang, Yinqiao Yi, Yida Wang, Yang Song, Xu Yan, Shengfang Xu, Dalin Zhu, Mengqiu Cao, Yan Zhou, Chenglong Wang, Guang Yang

#### Контекст Квантитативная магнитная резонансная импедансная спектроскопия (qMRI) является важной методикой для оценки структуры и функциональных характеристик тканей мозга. Однако существующие подходы часто сталкиваются с проблемами недостаточной точности, особенно при синтезе количественных карт из клинических весовых изображений. Эти проблемы возникают из-за ограниченности в расчетах физических параметров, необходимых для точной моделирования сигнала MRI. Недостаток точности и общедоступности лишает qMRI потенциала в клинической практике. Наша мотивация заключается в развитии метода, который бы улучшал точность синтеза qMRI, включил элементы физики и повысил его общедоступность. #### Метод Мы предлагаем физико-ориентированный нейронный сетевой подход, который интегрирует в модель клинические весовые изображения (T1-, T2-, T2-FLAIR) и последовательностные параметры MRI (TR, TE, TI). Модель использует **параметрные вложения** для встраивания этих физических параметров в нейросеть, чтобы она могла учитывать физические закономерности в сигнале MRI. Наша архитектура включает нейросеть с разбиением на несколько слоев, каждый из которых обрабатывает входные данные с разными весовыми изображениями и параметрами, создавая квантитативные карты T1, T2 и PD. Мы обучали модель на здоровых мозговых изображениях и тестировали её на обоих внутренних и внешних наборах данных. #### Результаты Мы оценили производительность нашей модели с помощью таких показателей как PSNR (Peak Signal-to-Noise Ratio) и SSIM (Structural Similarity Index). Для всех синтезированных карт (T1, T2, PD) PSNR превысил 34 дБ, а SSIM составил более 0,92. Модель показала существенное превосходство по точности и устойчивости перед другими глубокими нейронными сетями. Это продемонстрировано на данных с неизвестными ранее структурами мозга и патологическими регионами. Наши результаты указывают на то, что включение физических параметров в нейросеть существенно улучшает синтез количественных карт MRI, сделав его более надежным и точным. #### Значимость Предложенная модель открывает новые возможности в квантитативной магнитной резонансной импедансной спектроскопии. Она может быть применена для ускорения qMRI в клинических условиях и повышения точности диагностики. Извлечение физических параметров позволяет модели лучше понимать логику сигнала MRI, что ликвидирует традиционные ограничения существующих моделей. Этот подход не только повышает точность, но и позволяет модели работать в новых клинических сценариях, включая диагностику патологических регионов. Мы считаем, что

Annotation:

We propose a deep learning-based approach that integrates MRI sequence parameters to improve the accuracy and generalizability of quantitative image synthesis from clinical weighted MRI. Our physics-driven neural network embeds MRI sequence parameters -- repetition time (TR), echo time (TE), and inversion time (TI) -- directly into the model via parameter embedding, enabling the network to learn the underlying physical principles of MRI signal formation. The model takes conventional T1-weighted,...

ID: 2508.08123v1 eess.IV, cs.CV

arXiv PDF

📄 Transformer-Based Explainable Deep Learning for Breast Cancer Detection in Mammography: The MammoFormer Framework

2025-08-12

Авторы:

Ojonugwa Oluwafemi Ejiga Peter, Daniel Emakporuena, Bamidele Dayo Tunde, Maryam Abdulkarim, Abdullahi Bn Umar

#### Контекст Диагностика рака молочной железы через интерпретацию маммографических изображений является сложной задачей, в связи с минимальностью аномалий, которые необходимо выявить, а также различиями в толкованиях между специалистами. Человеческий глаз способен обнаружить только наиболее явные сигналы, что может привести к неточностям. Современные конвенциональные сети нейронных сетей (CNN), применяемые в медицинском анализе изображений, имеют две ограничения: они неэффективно обрабатывают локальные детали и широкие контексты, а также не предоставляют достаточные пояснения (Explainable AI, XAI), которые клинические специалисты требуют для принятия решений. #### Метод Объединив трансформерную архитектуру с компонентами усиления многофункциональных признаков и XAI-функционалом, разработчики предложили MammoFormer-фреймворк. Он включает в себя семь разных архитектур, включая CNN, Vision Transformer (ViT), Swin Transformer и ConvNext, а также четыре техники усиления признаков (оригинальные изображения, отрицательная трансформация, адаптивное гистограммное эквивалентирование и гистограмма углов ориентации точек). Разработка такого подхода позволила решить ключевые проблемы, связанные с недостаточным обработкой локальных деталей и нехваткой пояснений, которые ограничивают клиническую применимость AI-систем. #### Результаты Эксперименты проводились с использованием большого датасета маммографических изображений. Фреймворк MammoFormer достиг до 13% улучшений в производительности и показал 98,3% точности при использовании ViT в сочетании с AHE. Этот подход также имеет высокую гибкость и может работать с различными видами контекста, обеспечивая обоснованные клинические решения. Таким образом, разработка сочетает в себе устойчивость моделей CNN и глобальное моделирование контекста трансформерами. #### Значимость МаммоFormer-фреймворк может быть применен в клинической практике для улучшения точности диагностики рака молочной железы. Он имеет ряд преимуществ, в том числе улучшенную транспарентность решений, которая может повысить доверие к AI-системам у клинических специалистов. Благодаря интеграции XAI, система может объяснять свои прогнозы, что является критически важным для клинической приемлемости. #### Выводы Разработанный MammoFormer-фреймворк является прорывом в области XAI для диагностики рака молочной железы. Он улучшает точность интерпретации изображений и обеспечивает понимание результатов врачами. Будущие исследования будут сфокусированы на расширении применения этого подхода на другие виды биомедицинских

Annotation:

Breast cancer detection through mammography interpretation remains difficult because of the minimal nature of abnormalities that experts need to identify alongside the variable interpretations between readers. The potential of CNNs for medical image analysis faces two limitations: they fail to process both local information and wide contextual data adequately, and do not provide explainable AI (XAI) operations that doctors need to accept them in clinics. The researcher developed the MammoFormer ...

ID: 2508.06137v1 eess.IV, cs.CV

arXiv PDF

1
2
22
23
24
25
26
27

Показано 231 - 240 из 268 записей