📚 Саммари научных статей из arXiv

Найдено 268 результатов по запросу 'eess.IV, cs.CV' Сбросить поиск

📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 0

Последнее обновление: сегодня

📄 The Missing Piece: A Case for Pre-Training in 3D Medical Object Detection

2025-09-23

Авторы:

Katharina Eckstein, Constantin Ulrich, Michael Baumgartner, Jessica Kächele, Dimitrios Bounias, Tassilo Wald, Ralf Floca, Klaus H. Maier-Hein

## Контекст 3D медицинская объектная детекция является ключевым компонентом точного компьютерно-помогаемого диагностирования. Однако полноценное использование 3D-информации в обучении моделей остается недостаточно исследовано. Использование 2D медицинских данных или изображений натуры в качестве примеров предварительного обучения не позволяет достичь полного потенциала 3D-технологий. Это вызывает проблемы в получении точных и универсальных моделей для детекции 3D-объектов в медицине. Наша мотивация заключается в изучении методов предварительного обучения, которые могут способствовать улучшению точности 3D-детекторов. ## Метод Мы используем предварительно обученные сети, ориентированные на задачу 3D-детекции, для сравнения различных методов предварительного обучения. Методы включают в себя изображения натуры, 2D медицинские изображения и 3D-реконструкцию. Работа охватывает архитектуры на основе сверток (CNNs) и трансформеров (Transformers). Данные для обучения были получены из различных больших медицинских баз данных. Наша методология включает эксперименты с различными типами 3D-детекторов, чтобы оценить эффективность каждого метода предварительного обучения. ## Результаты Мы провели эксперименты с несколькими детекторами и датасетом, такими как LIDC-IDRI и 3D-CT-сканирования. Результаты показали, что предварительное обучение на 3D-реконструкции показало самые высокие результаты, превосходя обучение на изображениях натуры и 2D медицинских данных. Также мы обнаружили, что трансформеры показали более высокую универсальность по сравнению с CNN-архитектурами. Однако предварительное обучение на основе контрастирования не дало существенных выигрышей. Эти находки подтверждают, что предварительное 3D-обучение может улучшить точность детекции в различных сценариях клинического применения. ## Значимость Наши результаты имеют решающее значение для медицинских областей, где точность детекции 3D-объектов критична, таких как диагностика рака и оперативная планировка. Использование предварительного обучения позволяет значительно сократить время обучения и улучшить точность детекторов. Кроме того, наш подход может быть применен к разным архитектурам, включая трансформеры, что делает его универсальным и применимым в различных медицинских задачах. ## Выводы Мы установили, что предварительное обучение на 3D-реконструкции является наиболее эффективным методом для улучшения 3D-детекторов. Данные находки открывают путь к будущим исследованиям в области предварительного обучения для 3D-меди

Annotation:

Large-scale pre-training holds the promise to advance 3D medical object detection, a crucial component of accurate computer-aided diagnosis. Yet, it remains underexplored compared to segmentation, where pre-training has already demonstrated significant benefits. Existing pre-training approaches for 3D object detection rely on 2D medical data or natural image pre-training, failing to fully leverage 3D volumetric information. In this work, we present the first systematic study of how existing pre-...

ID: 2509.15947v1 eess.IV, cs.CV, cs.LG

arXiv PDF

📄 SLaM-DiMM: Shared Latent Modeling for Diffusion Based Missing Modality Synthesis in MRI

2025-09-23

Авторы:

Bhavesh Sandbhor, Bheeshm Sharma, Balamurugan Palaniappan

## Контекст В области медицинского изображения, четыре модальности МРТ (T1w, T1ce, T2w и Flair) широко используются для анализа биологической анатомии мозга. Эти модальности дополняют друг друга, обеспечивая богатые детали и характеристики, необходимые для точных диагностических задач. Однако не всегда все модальности могут быть доступны, из-за отсутствия одной из них во время получения изображений, сбоя оборудования или других причин. Это ставит перед исследователями задачу порождения отсутствующих модальностей. Несмотря на то, что существуют методы, такие как генеративные модели, они часто страдают от артефактов или несогласованности структуры. Обоснованность и эффективность новых подходов в этой области могут существенно влиять на повышение точности диагностики и улучшение клинических результатов. ## Метод Мы предлагаем SLaM-DiMM (Shared Latent Modeling for Diffusion-Based Missing Modality Synthesis in MRI), новую модель, основанную на моделях размерности и диффузионных моделях. Модель вводит систему координат, которая делит модальности на группы, чтобы улучшить понимание зависимостей и корреляций. Мы используем диффузионные модели для порождения отсутствующих модальностей, что позволяет сохранять контекст и геометрическую точность. Для обеспечения структурного согласования внутри глубины трехмерных объектов, мы вводим механизм координации глубины, который улучшает консистентность сильно различных модальностей. Модель обучается на большом количестве данных с разными модальностями для обучения наиболее гибкой и универсальной модели. ## Результаты Мы проводили эксперименты на BraTS-Lighthouse-2025 Challenge dataset, где SLaM-DiMM показала значительное превосходство в сравнении с другими подходами. Мы использовали объемные данные, включающие различные клинические ситуации, для тщательного сравнения. Для качественного анализа, мы вывели результаты по каждой модальности. Также, мы визуализировали интенсивность, точность координат и структурные детали. Количественные метрики, такие как SSIM и PSNR, показали лучшие результаты SLaM-DiMM по сравнению с конкурентными моделями. ## Значимость Предложенный подход имеет широкие области применения в медицинской изображейной обработке. Он может быть использован в задачах порождения отсутствующих модальностей, анализе необычных проявлений и диагностике аномалий в мозге. Основные преимущества SLaM-DiMM заключаются в том, что он обеспечивает высокую точность и структурную консистентность, что может повысить качество диагностических моделей. Мы предполагаем, что наши разработки смогут способствовать развитию новых к

Annotation:

Brain MRI scans are often found in four modalities, consisting of T1-weighted with and without contrast enhancement (T1ce and T1w), T2-weighted imaging (T2w), and Flair. Leveraging complementary information from these different modalities enables models to learn richer, more discriminative features for understanding brain anatomy, which could be used in downstream tasks such as anomaly detection. However, in clinical practice, not all MRI modalities are always available due to various reasons. T...

ID: 2509.16019v1 eess.IV, cs.CV

arXiv PDF

📄 FMD-TransUNet: Abdominal Multi-Organ Segmentation Based on Frequency Domain Multi-Axis Representation Learning and Dual Attention Mechanisms

2025-09-23

Авторы:

Fang Lu, Jingyu Xu, Qinxiu Sun, Qiong Lou

## Контекст Абдоминальная многоорганная сегментация является критическим аспектом в медицинских приложениях, таких как планирование операций и диагностика. Несмотря на развитие глубоких нейронных сетей, сегментация небольших, необычных или анатомически сложных органов до сих пор остается вызовом. Большинство нынешних методов ориентированы на спатिальный анализ, недостаточно используя потенциал анализа в частотном домене. Наша мотивация заключается в разработке метода, который бы оптимизировал сегментацию многоорганных структур с учетом частотных особенностей. ## Метод Мы предлагаем FMD-TransUNet, который сочетает технологию Multi-Axis External Weight Block (MEWB) и усовершенствованный модуль Dual Attention (DA+). MEWB извлекает фичи частотного домена по нескольким осям, позволяя подчеркнуть как глобальные структуры, так и локальные детали. DA+ использует депсуальные плотные свертки и объединяет механизмы спатсального и канального внимания, чтобы улучшить фузирование признаков и уменьшить графовый разрыв. Такой подход обеспечивает более точную сегментацию. ## Результаты Мы проводили эксперименты на Synapse-данных, сравнивая FMD-TransUNet с другими новейшими методами. Метрики: DSC 81.32%, HD 16.35 мм. Наш метод показал улучшение на 3.84% в DSC и 15.34 мм в HD по сравнению с базовым TransUNet. Эти результаты демонстрируют эффективность FMD-TransUNet в улучшении точности сегментации многоорганной анатомии. ## Значимость Наша разработка может применяться в клинических задачах, таких как хирургическое планирование и робототехническая системы. Она обеспечивает более точную сегментацию, снижает вероятность ошибок и повышает эффективность в медицинских работах. Это может положительно сказаться на качестве лечения и улучшении результатов. ## Выводы Мы разработали FMD-TransUNet, который значительно улучшает точность сегментации многоорганной анатомии. Будущие исследования будут отводиться на расширение применений и улучшение методики для других медицинских задач.

Annotation:

Accurate abdominal multi-organ segmentation is critical for clinical applications. Although numerous deep learning-based automatic segmentation methods have been developed, they still struggle to segment small, irregular, or anatomically complex organs. Moreover, most current methods focus on spatial-domain analysis, often overlooking the synergistic potential of frequency-domain representations. To address these limitations, we propose a novel framework named FMD-TransUNet for precise abdominal...

ID: 2509.16044v1 eess.IV, cs.CV

arXiv PDF

📄 PRISM: Probabilistic and Robust Inverse Solver with Measurement-Conditioned Diffusion Prior for Blind Inverse Problems

2025-09-23

Авторы:

Yuanyun Hu, Evan Bell, Guijin Wang, Yu Sun

#### Контекст Обратные задачи в вычислительной импедийности широко распространены во многих областях науки и техники, включая импедийную технику, медицинский импедий и визуальные искусства. Однако эти задачи часто сталкиваются с недостатком доступных и надежных методов для решения, особенно в случае неопределенности и неполноты данных. Развитие моделей на основе размытия (diffusion models) дало новые возможности для решения обратных задач, однако большинство таких моделей требуют полного знания прямого оператора, что ограничивает их применение в реальных условиях, где такая информация часто недоступна. Наша мотивация заключается в разработке метода, который мог бы эффективно работать с недостатком полного прямого оператора, обеспечивая точность и надежность в решении обратных задач. #### Метод Мы предлагаем PRISM (Probabilistic and Robust Inverse Solver with Measurement-Conditioned Diffusion Prior), новую модель, которая интегрирует мощный модель размытия, созданный на основе размытия (diffusion model), с теоретически принципиальным построением постерого значения. Наш подход включает в себя несколько ключевых элементов: 1. **Модель размытия с условием измерений** (measurement-conditioned diffusion model): Этот модель генерирует возможные решения, учитывая доступные измерения. Он позволяет эффективно работать с неполным или неточным данным. 2. **Принципиальное построение постерого значения**: Мы применяем теоретические аргументации для обеспечения надёжности решения, используя вариационный подход и семплирование после постера с условием измерений. 3. **Универсальная архитектура**: Наше решение может быть применено к широкому классу обратных задач, включая разные виды размытий и инверсных задач в вычислительной импедийности. #### Результаты Мы провели эксперименты на задаче безусловной размытой изображений (blind image deblurring), используя стандартные наборы данных. В результате: - **Точность восстановления изображений**: Мы получили высокую точность в восстановлении изображений, существенно превосходящую результаты существующих методов. - **Восстановление ядер размытия**: PRISM также демонстрирует высокую точность в восстановлении ядер размытия, что является важной задачей в обратных задачах. - **Устойчивость к неточности данных**: Мы проверили устойчивость наших решений к неточности или отсутствию частей измерений, и PRISM показал стабильные результаты. #### Значимость PRISM эффективно работает в сценариях, когда полное знание прямого оператора недоступно, что делает его применимым в реальных условиях. Его могут применять в таких областях, как медицинская импедийная, космическая импедийная, и импедийная визуальных искусст

Annotation:

Diffusion models are now commonly used to solve inverse problems in computational imaging. However, most diffusion-based inverse solvers require complete knowledge of the forward operator to be used. In this work, we introduce a novel probabilistic and robust inverse solver with measurement-conditioned diffusion prior (PRISM) to effectively address blind inverse problems. PRISM offers a technical advancement over current methods by incorporating a powerful measurement-conditioned diffusion model...

ID: 2509.16106v1 eess.IV, cs.CV, cs.LG

arXiv PDF

📄 Learning Mechanistic Subtypes of Neurodegeneration with a Physics-Informed Variational Autoencoder Mixture Model

2025-09-20

Авторы:

Sanduni Pinnawala, Annabelle Hartanto, Ivor J. A. Simpson, Peter A. Wijeratne

## Контекст Моделирование механизмов прогрессирования нейродегенеративных заболеваний требует методов, которые могли бы локально и гетерогенно отражать динамику, основываясь на неограниченных, высокомерных данных из нейроиммунинга. Интеграция знаний, основанных на физических уравнениях (PDE), с машинным обучением позволяет повысить интерпретируемость и эффективность по сравнению с традиционными численными методами. Однако работы, интегрирующие PDE с машинным обучением, ограничиваются рассмотрением одного PDE, что ограничивает применимость к заболеваниям, где несколько механизмов приводят к разным подгруппам (или подтипам). Данные проблемы усугубляются в моделях, не учитывающих таковую субтипификацию. Мы предлагаем глубокую генерирующую модель, которая может учитывать несколько динамических моделей, управляемых PDE, в рамках фреймворка вариационного автоэнкодера (VAE). Модель позволяет выделять субтипы с интерпретируемыми латентными переменными, такими как распространение (diffusivity) и реакционные скорости, из нейроиммунинга. Мы проверили нашу модель на синтетических данных и показали, что она может раскрывать механизмы прогрессирования заболевания Альцгеймера, основываясь на данных из позитронной эмиссионной томографии (PET). ## Метод Мы предлагаем **Variational Autoencoder Mixture Model (VAEMM)** с встроенными реакционно-диффузионными PDE. Реакционно-диффузионные PDE логически разделяются на подгруппы для каждого субтипа, чтобы отражать специфику динамики этого субтипа. Модель использует метод реконструкции VAE для выявления латентных переменных, которые описывают эти субтипы. Нашу архитектуру модели укрепляет физический смысл, внедренный в регуляризацию. Мы вводим новую функцию потерь, которая объединяет представление VAE с ограничениями, у imposеd by PDE. Эта регуляризация позволяет обеспечить точность в моделировании динамики и найти подтипы с логически согласованными латентными переменными. Мы использовали бенчмарки, созданные из имитационных данных, для проверки нашей модели. ## Результаты Мы проверили нашу модель на синтетических данных, генерируемых из различных предварительных моделей, включая реакционно-диффузионные PDE. Модель показала способность точно выявить субтипы и их латентные переменные, такие как распространение и реакционные скорости. Мы также применили нашу модель к реальным данным из PET-сканеров для прогрессирования Альцгеймера. Мы выявили подтипы, отражающие различные стили динамики заболевания, и показали, что модель может улучшить интерпретируемость томографических данных. Экспери

Annotation:

Modelling the underlying mechanisms of neurodegenerative diseases demands methods that capture heterogeneous and spatially varying dynamics from sparse, high-dimensional neuroimaging data. Integrating partial differential equation (PDE) based physics knowledge with machine learning provides enhanced interpretability and utility over classic numerical methods. However, current physics-integrated machine learning methods are limited to considering a single PDE, severely limiting their application ...

ID: 2509.15124v1 eess.IV, cs.CV, cs.LG

arXiv PDF

📄 3D Reconstruction of Coronary Vessel Trees from Biplanar X-Ray Images Using a Geometric Approach

2025-09-19

Авторы:

Ethan Koland, Lin Xi, Nadeev Wijesuriya, YingLiang Ma

## Контекст Коронарные сосуды, ответственные за кровоток в сердце, широко используются в кардиологии для диагностики и лечения различных заболеваний. Одним из основных способов их визуализации является X-ray ангиография, которая позволяет получить изображения сосудов в реальном времени. Однако, X-ray изображения предоставляют только двумерное представление, что ограничивает возможности в трехмерной реконструкции и анализе. Для решения этой проблемы предлагается разработать метод, позволяющий получить трехмерную модель коронарных сосудов на основе двух X-ray изображений, полученных с разных углов. Этот подход может существенно улучшить точность диагностики и руководствовать во время интервенционных процедур. ## Метод Метод предлагаемой работы состоит из трех основных компонент: автоматического сегментации видео, сопоставления фазы движения и трехмерной реконструкции. Алгоритм сегментации использует нейросетевые методы для выделения объектов в X-ray изображениях, таких как сосуды, шум и баллоны. Для того, чтобы повысить точность, введена фазовая синхронизация движения. Это позволяет выбрать изображения, которые соответствуют одному и тому же фазу движения сердца и дыхания. Таким образом, можно уменьшить ошибки в реконструкции. Наконец, для трехмерной реконструкции используется новый геометрический подход, основанный на интерфекции двух поверхностей. Этот метод позволяет определить центролинии сосудов с более высокой точностью по сравнению с традиционными методами, основанными на эпиполярных ограничениях. ## Результаты Разработанный алгоритм был проверен на 62 X-ray видео съемок. Для оценки точности сегментации было использовано метрики Intersection over Union (IoU), получившиеся результаты составили 0.703. Для трехмерной реконструкции проведены эксперименты с разными параметрами, в результате чего был получен ошибка репроекции в размере 0.62 мм с погрешностью 0.38 мм. Эти результаты показывают, что предложенный подход имеет более высокую точность по сравнению с традиционными методами. ## Значимость Предлагаемый подход может быть применен в медицинских интервенциях, таких как PCI (Percutaneous Coronary Intervention), для точного визуализации и лечения коронарных сосудов. Он обеспечивает более точную трехмерную реконструкцию, что позволяет лучше оценить степень стеноза, выбрать наиболее подходящий метод лечения и улучшить результаты интервенций. Кроме того, данный подход может быть использован для обучения и анализа, в том числе для создания тренировочных наборов данных и исследования новых методов визуализации и моделирования.

Annotation:

X-ray angiography is widely used in cardiac interventions to visualize coronary vessels, assess integrity, detect stenoses and guide treatment. We propose a framework for reconstructing 3D vessel trees from biplanar X-ray images which are extracted from two X-ray videos captured at different C-arm angles. The proposed framework consists of three main components: image segmentation, motion phase matching, and 3D reconstruction. An automatic video segmentation method for X-ray angiography to enabl...

ID: 2509.13358v1 eess.IV, cs.CV

arXiv PDF

📄 PREDICT-GBM: Platform for Robust Evaluation and Development of Individualized Computational Tumor Models in Glioblastoma

2025-09-19

Авторы:

L. Zimmer, J. Weidner, M. Balcerak, F. Kofler, I. Ezhov, B. Menze, B. Wiestler

#### Контекст Гиброма glioblastoma (GBM) — наиболее распространенная опухоль головного мозга, характеризующаяся высокой инвазивностью и высокой стадией возвращения. Традиционный радиотерапевтический подход, основывающийся на однородных пограничных зонах, не учитывает личные аномалии анатомии и биологии пациента, которые ведут к различным тенденциям возвращения. Чтобы решить эту проблему, были созданы многочисленные компьютерные модели роста GBM, позволяющие предсказать распространение тканей опухоли за пределы видимых радиологических областей и, следовательно, вдохновить на лучший клинический подход. Однако даже на первых этапах, эти модели показали важное потенциальное применение. Однако клиническое применение их ограничено, что необходимо провести трансляционные исследования и клиническую валидацию. Чтобы привнести этот трансляционный пробел и ускорить развитие моделей и проверку их клинической эффективности, мы предлагаем PREDICT-GBM — полностью интегрированную платформу и набор данных для моделирования и оценки роста гибром. #### Метод PREDICT-GBM представляет собой интегрированную платформу, которая содержит методы вычислительного моделирования роста гиброма, чтобы обеспечить широкий спектр моделей и систематическую оценку их производительности. Данные, использованные в рамках этого исследования, включают 255 клинических случаев с полным разделением тканей и картами характеристик тканей. Методы моделирования включают алгоритмы, которые могут предсказать распространение тканей опухоли на основе индивидуальных конкретизаций пациентов. Архитектура платформы обеспечивает гибкость и модульность, позволяя интегрировать различные модели и добавлять новые данные. Это позволяет проводить систематический бенчмаркинг и сравнивать различные модели роста гиброма в объемных клинических данных. #### Результаты В ходе исследования мы выполнили систематическую оценку двух моделей роста гиброма с помощью PREDICT-GBM. Мы сравнили личные планы лучевой терапии, построенные на основе предсказаний моделей, с традиционным методом, где используются равные пограничные зоны. Результаты показали, что персонализированные планы лучевой терапии, основанные на предсказаниях моделей, демонстрируют лучшую покрытие возвращения в двух моделях. Это указывает на то, что моделирование роста гиброма может привести к более точным и эффективным клиническим решениям. #### Значимость Платформа PREDICT-GBM имеет широкие клинические применения, включая улучшение точности предсказания распространения гиброма, оптимизацию лучевой те

Annotation:

Glioblastoma is the most prevalent primary brain malignancy, distinguished by its highly invasive behavior and exceptionally high rates of recurrence. Conventional radiation therapy, which employs uniform treatment margins, fails to account for patient-specific anatomical and biological factors that critically influence tumor cell migration. To address this limitation, numerous computational models of glioblastoma growth have been developed, enabling generation of tumor cell distribution maps ex...

ID: 2509.13360v1 eess.IV, cs.CV, cs.LG, q-bio.QM

arXiv PDF

📄 Cross-Distribution Diffusion Priors-Driven Iterative Reconstruction for Sparse-View CT

2025-09-19

Авторы:

Haodong Li, Shuo Han, Haiyang Mao, Yu Shi, Changsheng Fang, Jianjia Zhang, Weiwen Wu, Hengyong Yu

## Контекст Хотя спарсе-виев КТ (SVCT) позволяет улучшить терпимость и снизить радиационную дозу, его клиническое применение существенно ограничивается из-за вызванных урезанием количества снимков и изменений в протоколе или анатомии значительных артефактов. Эти проблемы становятся еще более острыми при взаимодействии с данными из других доменов (вне распределения, OOD), что приводит к понижению качества изображений. Необходимость развития методов, обеспечивающих высокое качество изображений при реконструкции SVCT в таких условиях, лежит в основе мотивации для нашего исследования. ## Метод Мы предлагаем Cross-Distribution Diffusion Priors-Driven Iterative Reconstruction (CDPIR) — новую архитектуру, объединяющую модель-основы и методы статистической обработки. Наша методология основывается на развитии Scalable Interpolant Transformer (SiT), расширенной Diffusion Transformer (DiT). Мы используем классер-фри гиданус (Classifier-Free Guidance) для обучения модели SiT, извлекающей общие и доменно-конкретные признаки. Во время тренировки происходит удаление условного ввода с помощью null-embedding, чтобы обеспечить устойчивость модели к изменениям в данных. Во время оптимизации мы используем наборы данных из разных доменов для извлечения признаков, которые позволяют модели работать с OOD-ситуациями. Для реконструкции мы альтернируем между фидбэком данных (дата файдаути) и шагами диффузии, что позволяет модели достигать высокого качества с минимальными ошибками. ## Результаты Мы провести широкий набор экспериментов с использованием множества данных из разных доменов, включая данные с различных сканеров и протоколов. Результаты показывают, что CDPIR существенно превосходит существующие методы в ключевых критериях, таких как PSNR и SSIM, особенно в OOD-сеточках. Мы также проверили устойчивость нашей модели к деформации исходных данных, получив результаты, которые не только выгодно отличаются по доктрине, но и демонстрируют значительное сокращение артефактов, особенно в условиях OOD. ## Значимость CDPIR может быть применен в клинической практике для улучшения качества реконструкции в спарсе-виев CT, особенно в сложных сценариях OOD. Наша модель обеспечивает более точное восстановление деталей и снижение артефактов, что может сделать SVCT более доступным для широкого клинического применения. Эта разработка также показывает потенциал для перекрестных применений в других областях, где необходимо улучшение качества данных с помощью глубоких статистических методов. ## Выводы Мы представляем Cross-Distribution Diffusion Priors-Driven Iterative Reconstruction (CDPIR), новую модель для решения проблем OOD в спарсе-виев CT. Наши результаты показывают, что CDPIR значительно превосходит существующие методы, обеспечивая высокое качест

Annotation:

Sparse-View CT (SVCT) reconstruction enhances temporal resolution and reduces radiation dose, yet its clinical use is hindered by artifacts due to view reduction and domain shifts from scanner, protocol, or anatomical variations, leading to performance degradation in out-of-distribution (OOD) scenarios. In this work, we propose a Cross-Distribution Diffusion Priors-Driven Iterative Reconstruction (CDPIR) framework to tackle the OOD problem in SVCT. CDPIR integrates cross-distribution diffusion p...

ID: 2509.13576v1 eess.IV, cs.CV, 65R32

arXiv PDF

📄 Enhancing Radiographic Disease Detection with MetaCheX, a Context-Aware Multimodal Model

2025-09-18

Авторы:

Nathan He, Cody Chen

## Контекст Ключевые проблемы в диагностике патологий на основе радиологических исследований черепного мозга включают недостаточное учете метаданных пациента, таких как возраст, пол и другие клинические признаки. Это приводит к ухудшению точности диагностики и неравенству в обслуживании. Несмотря на прогресс в области машинного обучения, существующие модели часто игнорируют эти критические данные, ограничивая их применимость в реальной клинической практике. Метаданные, помимо изображений, могут предоставить важные контекстные сведения, улучшив объективность и точность диагностических выводов. Мотивация заключается в разработке модели, которая будет эффективно интегрировать метаданные и изображения для повышения точности и справедливости диагностических выводов. ## Метод МетаCheX представляет собой контекстно-зависимую модель мультимодального обучения, которая объединяет изображения транскраниальных анализов (CT) и метаданные в единую архитектуру. Изображения обрабатываются с помощью конволюционной нейронной сети (CNN), в то время как метаданные обрабатываются с помощью многослойного перцептрона (MLP). Данные обрабатываются независимо, но объединяются в общий классификатор, который выполняет окончательный вывод. Эта архитектура позволяет модели учитывать оба типа данных, чтобы повысить точность и сделать диагностику более контекстно осмысленной. Модель обучалась на разнообразных данных с разными уровнями сложности для обеспечения широкой общности и робастности. ## Результаты На тестовой выборке CheXpert Plus, MetaCheX показала значительное улучшение в точности диагностики по сравнению с моделями, основанными только на изображениях. Использование метаданных привело к повышению метрики AUROC, что указывает на меньшую алгоритмическую стереотипность и усиленную общность модели. Метаданные также позволили модели лучше адаптироваться к разным клиническим сценариям, снизив риск ошибок в диагностике. Эксперименты показали, что MetaCheX эффективно интегрирует метаданные с изображениями, повышая общую эффективность модели в различных ситуациях диагностики. ## Значимость Результаты MetaCheX могут быть применимы в различных областях медицинского искусственного интеллекта, включая диагностику радиологических заболеваний и улучшение оценки клинических результатов. Мультимодальность модели позволяет улучшить точность диагностики, уменьшить биазы и увеличить ценность данных в клинической практике. Повышение справедливости и общности модели делает ее привлекательной для использования в разнообразных пациентских аудиториях. Эти достижения могу

Annotation:

Existing deep learning models for chest radiology often neglect patient metadata, limiting diagnostic accuracy and fairness. To bridge this gap, we introduce MetaCheX, a novel multimodal framework that integrates chest X-ray images with structured patient metadata to replicate clinical decision-making. Our approach combines a convolutional neural network (CNN) backbone with metadata processed by a multilayer perceptron through a shared classifier. Evaluated on the CheXpert Plus dataset, MetaCheX...

ID: 2509.12287v1 eess.IV, cs.CV, cs.LG

arXiv PDF

📄 Automated Cervical Os Segmentation for Camera-Guided, Speculum-Free Screening

2025-09-17

Авторы:

Aoife McDonald-Bowyer, Anjana Wijekoon, Ryan Laurance Love, Katie Allan, Scott Colvin, Aleksandra Gentry-Maharaj, Adeola Olaitan, Danail Stoyanov, Agostino Stilli, Sophia Bano

## Контекст Острый нуждающийся в эффективных и доступных критериях, а также в новых технологиях для повышения доступности и качества врачебных услуг для профилактики рака шейки матки. Доступ к технологическим процедурам, таким как видеоэндоскопическое обследование спекула-фри систем, ограничен в многих низкодоходных регионах, например в Украине. Однако технические вызовы, такие как необходимость в реальном времени автоматической детекции и сегментации являются ключевыми проблемами, которые необходимо решить для улучшения доступа к таким услугам. ## Метод Для анализа изображений использованы модели сверточных нейронных сетей (CNN), а также модели визуальных трансформеров (Vision Transformers, ViT). Эти модели были обучены на наборе данных IARC Cervical Image Dataset, который включает 913 изображений специального типа, подготовленных экспертами. Методы сравнения включили такие метрики, как IoU (Интерсекция Угол), DICE (ДИСЕ), детекционный курс, и метрики расстояний. Обучение проводилось с использованием 10-кратного кросс-валидации. Также проведена внешняя валидация с использованием фантомных данных для оценки устойчивости модели к разным условиям. ## Результаты В результате экспериментов, а также полученных результатов, была определена модель EndoViT/DPT, основанная на визуальном трансформере, которая показала наилучший результат по метрике DICE (0.50 ± 0.31) и детекционному курсу (0.87 ± 0.33). Это модель превысила другие CNN-модели по этим критериям. Внешней валидацией демонстрируется устойчивость модели к разным условиям видео, в том числе с меняющимися освещением и цветовыми характеристиками. Используя этот подход, модель работает в реальном времени с скоростью 21.5 изображений в секунду. ## Значимость Полученные результаты могут быть применены для создания системы видеоэндоскопического мониторинга спекула-фри, которая поможет гинекологам в реальном времени диагностировать рак шейки матки. Это может существенно повысить доступность и качество лечения, особенно в низкодоходных странах и местах с ограниченным доступом к медицинским технологиям. ## Выводы Результаты демонстрируют возможность использования моделей визуальных трансформеров для реального времени сегментации яичника шейки матки в видеоизображениях. Это может стать основой для развития новых технологий в области профилактики и диагностики рака шейки матки, повышая доступность и качество медицинских услуг в разных регионах. Будущие исследования будут направлены на улучшение модели и расширение ее применения в различ

Annotation:

Cervical cancer is highly preventable, yet persistent barriers to screening limit progress toward elimination goals. Speculum-free devices that integrate imaging and sampling could improve access, particularly in low-resource settings, but require reliable visual guidance. This study evaluates deep learning methods for real-time segmentation of the cervical os in transvaginal endoscopic images. Five encoder-decoder architectures were compared using 913 frames from 200 cases in the IARC Cervical ...

ID: 2509.10593v1 eess.IV, cs.CV

arXiv PDF

1
2
11
12
13
14
15
26
27

Показано 121 - 130 из 268 записей