📚 Саммари научных статей из arXiv

Найдено 268 результатов по запросу 'eess.IV, cs.CV' Сбросить поиск

📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 0

Последнее обновление: сегодня

📄 Deep Biomechanically-Guided Interpolation for Keypoint-Based Brain Shift Registration

2025-08-21

Авторы:

Tiago Assis, Ines P. Machado, Benjamin Zwick, Nuno C. Garcia, Reuben Dorent

#### Контекст Нейрохирургия требует точного учета виброшифта мозга для поддержания точности neuronavigationа. Однако классические методы регистрации, основанные на ключевых точках, часто используют простые геометрические модели, которые не учитывают биомеханические характеристики тканей. Это приводит к неточностям в оценке деформаций мозга. Наша мотивация заключается в разработке биомеханически управляемого алгоритма, который бы улучшил точность регистрации, учитывая физические свойства тканей. #### Метод Мы предлагаем новую нейронную сеть, которая преобразует классические простые интерполяции в биомеханически управляемые деформации мозга. Метод основывается на создании большого кирпичника синтетических деформаций мозга с использованием биомеханических моделей. Затем мы обучаем резидентную 3D U-Net для уточнения интерполированных данных с помощью этих биомеханических моделей. Наш подход включает в себя две основные компоненты: использование биомеханических моделей для получения биологически реалистичных деформаций и использование нейронных сетей для уточнения простых интерполяционных моделей. #### Результаты Мы проводили эксперименты на большом наборе синтетических данных, сравнивая наш подход с классическими алгоритмами интерполяции. Результаты показали, что наш алгоритм снижает среднеквадратичную ошибку на половину по сравнению с традиционными интерполяторами. Это приводит к более точной оценке деформаций мозга, что значительно улучшает точность neuronavigationа в нейрохирургии. Мы также показали, что наш алгоритм имеет минимальный накладываемый накладной накладываемый накладной накладный эффект на вычислительной сложности. #### Значимость Метод может быть применен в нейрохирургии для улучшения точности neuronavigationа во время операций. Он предоставляет более точную оценку деформаций мозга, что позволяет врачам делать более точные решения во время операции. Это может существенно повысить безопасность и эффективность нейрохирургических операций. #### Выводы Мы разработали новую биомеханически управляемую модель для интерполяции ключевых точек в регистрации мозга. Наши эксперименты показали, что наш подход значительно улучшает точность регистрации по сравнению с классическими методами. Мы планируем дальнейшее исследование применения этого подхода к реальным данным, а также расширение модели для учета дополнительных факторов, таких как тканевые свойства и динамические изменения.

Annotation:

Accurate compensation of brain shift is critical for maintaining the reliability of neuronavigation during neurosurgery. While keypoint-based registration methods offer robustness to large deformations and topological changes, they typically rely on simple geometric interpolators that ignore tissue biomechanics to create dense displacement fields. In this work, we propose a novel deep learning framework that estimates dense, physically plausible brain deformations from sparse matched keypoints. ...

ID: 2508.13762v1 eess.IV, cs.CV

arXiv PDF

📄 Latent Interpolation Learning Using Diffusion Models for Cardiac Volume Reconstruction

2025-08-21

Авторы:

Niklas Bubeck, Suprosanna Shit, Chen Chen, Can Zhao, Pengfei Guo, Dong Yang, Georg Zitzlsberger, Daguang Xu, Bernhard Kainz, Daniel Rueckert, Jiazhen Pan

#### Контекст Cardiac Magnetic Resonance (CMR) изображения являются критически важным инструментом для диагностики и управления сердечно-сосудистыми заболеваниями. Однако, их эффективность ограничена недостаточной частотой съемки 2D кроп-кусочков синусуса, что приводит к неполной воспроизводимости трехмерной структуры. Эффективная трехмерная реконструкция из таких неполных данных является ключевым заданием для полноценного сердечного анализа, но существующие методы сталкиваются с проблемами. Они часто зависят от предопределенных схем интерполяции (например, линейной или круговой), имеют высокую вычислительную сложность и требуют дополнительных семантических входных данных, таких как сегментационные метки или данные морфологического признака. Из-за этого, необходимо разработать более гибкий и эффективный подход. #### Метод Мы предлагаем \textbf{Ca}rdiac \textbf{L}atent \textbf{I}nterpolation \textbf{D}iffusion (CaLID), новую архитектуру на основе моделей размытия, для решения этой проблемы. Наш фреймворк включает три основных инновации. Во-первых, мы предлагаем данно-дреножный способ интерполяции, основанный на моделях размытия, который более точно построит сложные, нелинейные отношения между 2D-кадрами. Во-вторых, мы оптимизировали эту модель для работы в латентном пространстве, чтобы увеличить скорость 3D-реконструкции в 24 раза по сравнению с предыдущими методами. В-третьих, CaLID работает только с неполными 2D-изображениями CMR, не требуя дополнительных семантических меток или данных движения, что упрощает процесс. Для рендеринга всего сердца, мы также расширили нашу модель для работы с 2D+T данными, чтобы гарантировать гармоническую спектро-временную координату. #### Результаты Мы провели обширные испытания на большом наборе данных, включающих как стандартные трехмерные реконструкции, так и задачи сегментации. Наши результаты показали, что CaLID превосходит существующие методы, демонстрируя высокую точность и эффективность. Наши трехмерные реконструкции имели меньшую погрешность и высокую разрешающую способность в сравнении с другими способами. Также, мы продемонстрировали, что технология CaLID может быстро перейти от 2D-изображений к 3D-реконструкции, что делает ее клинически затратной и быстрой для сердечных имплантаций. #### Значимость Мы видим применение нашего подхода в различных клинических сценариях, включая диагностику и мониторинг сердечных заболеваний, а также для планирования и оптимизации транскордиальных сердечных хирургических вмешательств. Наш фреймворк отличается своей высокой эффек

Annotation:

Cardiac Magnetic Resonance (CMR) imaging is a critical tool for diagnosing and managing cardiovascular disease, yet its utility is often limited by the sparse acquisition of 2D short-axis slices, resulting in incomplete volumetric information. Accurate 3D reconstruction from these sparse slices is essential for comprehensive cardiac assessment, but existing methods face challenges, including reliance on predefined interpolation schemes (e.g., linear or spherical), computational inefficiency, and...

ID: 2508.13826v2 eess.IV, cs.CV

arXiv PDF

📄 Learning to See Through Flare

2025-08-21

Авторы:

Xiaopeng Peng, Heath Gemar, Erin Fleet, Kyle Novak, Abbie Watnik, Grover Swartzlander

#### Контекст Актуальность исследования связана с ростом требований к надежности и развитию машинного зрения в условиях высокоинтенсивного лазерного излучения. Лазерное замирание (flare) является серьезной проблемой для компьютерного зрения, приводящей к перегруженности или повреждению сенсорных пикселей. Данная проблема широко распространена в сферах, где используется видеонаблюдение, автономное управление, а также в задачах обороны, где лазерное излучение может использоваться как оружие. Недостаток в существующих решениях заключается в том, что они не могут обеспечить полную защиту во всем видимом спектре и являются неэффективными в условиях динамически изменяющихся лазерных параметров. #### Метод Разработанный фреймворк NeuSee представляет собой сочетание новых подходов в машинном зрении и интенсивного лазерного излучения. Основной компонентой является diffractive optical element (DOE), разработанное с помощью глубоких нейронных сетей. Этот DOE предназначен для того, чтобы воспринимать и манипулировать лазерным излучением до его воздействия на сенсорные пиксели. Кроме того, господствующей роль в фреймворке играет Мamba-GAN, новый генеративный адверсарный сетевой подход. Он позволяет восстанавливать изображения, поражённые лазером, с высоким разрешением и подробностью. Фреймворк NeuSee использует многоуровневую архитектуру, которая работает в режиме реального времени и адаптивно приспосабливается к изменениям в лазерных параметрах. #### Результаты Система была тщательно тестирована на наборе данных, содержащим 100 000 уникальных изображений, как с лазерным излучением, так и без него. Использовавшиеся методы позволили сократить пик максимального лазерного излучения до 10 миллионов раз выше порога перегрузки сенсорного пикселя. Эксперименты показали, что Новый подход обеспечивает высокую точность восстановления изображений при минимальном ущербе качеству изображения. Также было проведено сравнение с другими подходами, что подтвердило превосходство NeuSee в спектре полного диапазона видимого света. #### Значимость Данный подход может быть применен в различных областях, включая навигацию автомобилей без водителя, системы безопасности, технику медицинской визуализации и оборонные технологии. НеуSee предоставляет уникальные преимущества, такие как защита от лазерного замирания во всем видимом спектре, повышенная точность восстановления изображений и гибкость в условиях различных сцен. Будущие исследования будут направлены на улучшение системы для большего разрешения изображений и расширения её приложений в иску

Annotation:

Machine vision systems are susceptible to laser flare, where unwanted intense laser illumination blinds and distorts its perception of the environment through oversaturation or permanent damage to sensor pixels. We introduce NeuSee, the first computational imaging framework for high-fidelity sensor protection across the full visible spectrum. It jointly learns a neural representation of a diffractive optical element (DOE) and a frequency-space Mamba-GAN network for image restoration. NeuSee syst...

ID: 2508.13907v1 eess.IV, cs.CV

arXiv PDF

📄 MMIS-Net for Retinal Fluid Segmentation and Detection

2025-08-21

Авторы:

Nchongmaje Ndipenocha, Alina Mirona, Kezhi Wanga, Yongmin Li

## Контекст Исследования в области глубокого обучения на медицинских изображениях становятся все более важными для повышения точности диагностики и лечения различных заболеваний. Однако существуют проблемы, связанные с ограниченностью многих методов, которые обычно обучаются и тестируются на ограниченных данных определенного вида заболеваний, органа или модальности изображений. Эта ограниченность не позволяет использовать всю полезность доступных медицинских изображений, включая данные из различных модальностей и органов. Наша мотивация заключается в развитии модели, которая сможет объединить сочетание множества медицинских изображений для повышения общей точности и обобщаемости. ## Метод Мы предлагаем **MMIS-Net (MultiModal Medical Image Segmentation Network)** — модель, основанную на нейросети, которая использует **Similarity Fusion blocks**. Эти блоки объединяют различные изображения путем супервайзедного фуззинга и выбора схожих пикселей для фуззинга. Таким образом, модель может использовать сильные стороны каждого изображения. Мы также разработали **однозначное метки-объекты (one-hot label space)**, чтобы устранить проблему несоответствия или конфликта между классами из разных датасетов. Эта модель была обучена на 10 различных медицинских датасетах, которые включают 19 органов и 2 модальности изображений. ## Результаты Мы проверили MMIS-Net на задаче сегментации жидкости в глазных каналах (RETOUCH grand challenge) и сравнили результаты с другими современными моделями. Наша модель показала лучший **mean Dice score** равный 0.83 и **absolute volume difference** в 0.035. Для задачи детекции жидкости, модель достигла **perfect Area Under the Curve (AUC)** равного 1. Эти результаты доказывают высокую точность, гибкость и мощь MMIS-Net при обработке медицинских изображений. ## Значимость Модель MMIS-Net может быть применена в различных областях медицинской информатики, включая сегментацию и детекцию заболеваний на основе медицинских изображений. Основные преимущества в том, что модель объединяет данные из разных источников, адаптируется к нескольким классам и модальностям изображений. Это увеличивает общую точность и позволяет использовать MMIS-Net для диагностики различных заболеваний. Будущие исследования будут ориентированы на улучшение точности и дальнейшее применение модели в различных медицинских задачах. ## Выводы Мы доказали, что модель MMIS-Net эффективна благодаря интеграции **Similarity Fusion blocks**, которые улучшают супервайзедное обучение, и **однозначному меткам-объектам**, что позволяет устранить проблемы несоответствия классов в разных датасетах. Эти достижения открывают новые возможности для улучшения диагностики и лечения различных заболеваний с

Annotation:

Purpose: Deep learning methods have shown promising results in the segmentation, and detection of diseases in medical images. However, most methods are trained and tested on data from a single source, modality, organ, or disease type, overlooking the combined potential of other available annotated data. Numerous small annotated medical image datasets from various modalities, organs, and diseases are publicly available. In this work, we aim to leverage the synergistic potential of these datasets ...

ID: 2508.13936v1 eess.IV, cs.CV

arXiv PDF

📄 Real-Time, Population-Based Reconstruction of 3D Bone Models via Very-Low-Dose Protocols

2025-08-21

Авторы:

Yiqun Lin, Haoran Sun, Yongqing Li, Rabia Aslam, Lung Fung Tse, Tiange Cheng, Chun Sing Chui, Wing Fung Yau, Victorine R. Le Meur, Meruyert Amangeldy, Kiho Cho, Yinyu Ye, James Zou, Wei Zhao, Xiaomeng Li

#### Контекст Область исследования связана с созданием точных трехмерных моделей костей для предварительной подготовки операций и создания сервисов для руководства во время операции. Основная проблема заключается в высокой радиационной нагрузке при использовании компьютерной томографии (CT) и затратном процессе маркирования. Традиционные методы не подходят для реального времени в стоматологии и ортопедии. Это мотивирует разработку быстрых, точных и низкодознозных методов, позволяющих создавать пациент-специфические модели костей в реальном времени. #### Метод Предлагается метод Semi-Supervised Reconstruction with Knowledge Distillation (SSR-KD), который использует современные методы машинного обучения, включая семиотическое разметирование и дистилляцию знаний. Метод включает в себя архитектуру, способную обрабатывать данные от двух плоскостей (бипланарные рентгеновские снимки) и строить модель кости в течение 30 секунд. Решение использует глубокое обучение для точного построения модели в режиме реального времени, сокращая дозу излучения и устраняя необходимость вручную размечать данные. #### Результаты На тестовых данных показано, что SSR-KD позволяет создавать модели костей с точностью, соответствующей требованиям клинических задач. Ошибка позиционирования костной модели на уровне 1 мм, что достаточно для практических задач. Было проведено экспериментальное сравнение моделей, построенных на основе CT и бипланарных рентгеновских снимков, показав, что модели, построенные с помощью SSR-KD, не уступают в качестве вариантам с CT. Это подтверждает применимость моделей для оперативного руководства. #### Значимость Областьми применения являются ортопедические операции, в том числе гонартроз, и возможность интраоперационного руководства пациентом. Этот подход сокращает радиационную нагрузку на пациентов, ускоряет процесс построения моделей и улучшает практичность. Этот вариант может превратиться в инструмент, необходимый для современных клинических услуг в ортопедии и травматологии. #### Выводы Основной достижением является разработка SSR-KD, метода, который предоставляет точные модели костей в течение нескольких секунд, уменьшая затраты и радиационную нагрузку. Будущими направлениями исследований будет расширение возможностей данного метода для других типов костей, улучшение точности и интеграция с реальной-времени системами руководства в операциях.

Annotation:

Patient-specific bone models are essential for designing surgical guides and preoperative planning, as they enable the visualization of intricate anatomical structures. However, traditional CT-based approaches for creating bone models are limited to preoperative use due to the low flexibility and high radiation exposure of CT and time-consuming manual delineation. Here, we introduce Semi-Supervised Reconstruction with Knowledge Distillation (SSR-KD), a fast and accurate AI framework to reconstru...

ID: 2508.13947v1 eess.IV, cs.CV

arXiv PDF

📄 UNICON: UNIfied CONtinual Learning for Medical Foundational Models

2025-08-21

Авторы:

Mohammad Areeb Qazi, Munachiso S Nwadike, Ibrahim Almakky, Mohammad Yaqub, Numan Saeed

#### Контекст Научные исследования в области медицинских искусственных нейронных сетей сталкиваются с систематическими вызовами, связанными с ограниченностью доступных данных. Это затрудняет подготовку фундаментальных моделей, которые должны обладать общими знаниями для различных медицинских задач, модальностей и регионов анатомии. Эти модели часто требуют больших объемов данных для каждой новой задачи или модальности, что приводит к проблеме распространенного сегментационного мышления (task-specific thinking). Для преодоления этого вызова необходимо разработать методы, которые позволят моделям беспрепятственно расширять свои возможности в новых сферах и задачах, без требования к повторной полной подготовке. #### Метод Мы предлагаем UNICON (UNIfied CONtinual Learning for Medical Foundational Models), универсальную архитектуру, которая объединяет в себе методы для непрерывного обучения (continual learning) и обнаружения изменений (adaptation). Фундаментальная идея заключается в том, что модель обучается последовательно на различных задачах (например, классификация, прогнозирование и сегментация) без полной переучиваемости. Основное решение заключается в использовании методов эволюционного настройки (evolutionary adaptation), которые позволяют модели сохранить эффективность на прежних задачах, при этом учитывая новые данные и задачи. Благодаря этому, UNICON может расширяться в новые модальности и анатомические регионы, не потеряв производительности на старых задачах. #### Результаты Мы проводили эксперименты, состоящие в том, что модель была инициально обучена для классификации образов хешт-кторт-си (chest CT). Далее, эта модель была тренирована для прогнозирования и сегментации без полной переучиваемости. Для того, чтобы проверить модель, мы также включили этапы обучения с PET-сканningами, чтобы проверить ее мощность в условиях увеличения количества данных и модальностей. Результаты показали, что модель не только сохранила производительность на прежних задачах (классификация), но и добавила новые навыки, такие как сегментирование и прогнозирование, без катастрофического забывания (catastrophic forgetting). Например, на PET-сегментации, UNICON показала 5% выигрыш в Dice-коэффициенте по сравнению с базовыми моделями. #### Значимость UNICON представляет собой надежный инструмент для создания generalist AI моделей в медицине, которые могут расширять свои возможности по мере поступления новых данных и задач. Эта модель позволяет не только преодолевать проблему сегментационного мышления, но и объединять различные модальности и задачи в одном модельном пространстве. Это может привести к значительным упрощениям и экономии ресурсов в области медицинского искусственного интеллекта, так как не требуется постоянное повторное обучение модели для

Annotation:

Foundational models are trained on extensive datasets to capture the general trends of a domain. However, in medical imaging, the scarcity of data makes pre-training for every domain, modality, or task challenging. Continual learning offers a solution by fine-tuning a model sequentially on different domains or tasks, enabling it to integrate new knowledge without requiring large datasets for each training phase. In this paper, we propose UNIfied CONtinual Learning for Medical Foundational Models...

ID: 2508.14024v1 eess.IV, cs.CV

arXiv PDF

📄 FractMorph: A Fractional Fourier-Based Multi-Domain Transformer for Deformable Image Registration

2025-08-20

Авторы:

Shayan Kebriti, Shahabedin Nabavi, Ali Gooya

#### Контекст Размыкание медицинских изображений — это критический этап в различных клинических процедурах, включая планирование операций, мониторинг заболеваний и трансплантации. Однако деформируемый регистрация изображений (DIR), которая связывает анатомические структуры на разных изображениях, представляет собой сложную задачу из-за различий в структурах, разрешении и размышлении. Традиционные методы часто вынуждены выбирать между точностью и объемом данных, не удаваясь удовлетворить обе потребности. Мы предлагаем FractMorph, новую архитектуру для решения этой проблемы, основанную на фракционном преобразовании Фурье, чтобы повысить точность и эффективность регистрации. #### Метод Фракционное преобразование Фурье (FrFT) используется для извлечения частных функций в различных доменах, что позволяет одновременно поймать локальные и глобальные фичи. Мы предлагаем 3D-двухпараллельную сеть на базе трансформеров, где каждый блок Fractional Cross-Attention (FCA) применяет FrFT в 0°, 45°, 90°, а также log-magnitude branch. Эти функции объединяются с помощью cross-attention между фиксированным и перемещаемым изображениями. Для предсказания деформационного поля используется легковесная архитектура U-Net. Мы также представили легковесный вариант FractMorph-Light с 29,6M параметрами, который демонстрирует точность, подходящую для полной модели, но с меньшим потреблением ресурсов. #### Результаты Мы проверили FractMorph на ACDC cardiac MRI датасете, получив state-of-the-art результаты: overall Dice Similarity Coefficient (DSC) 86,45%, average per-structure DSC 75,15%, HD95 1,54 mm. Мы продемонстрировали, что наша модель отлично справляется с нелинейными деформациями в медицинских изображениях без потребности в специальной настройке или многошаговых архитектурах. Мы также представили FractMorph-Light, который подтвердил наши результаты с меньшим размером. #### Значимость Наша модель имеет широкие клинические приложения в различных областях, включая планирование операций и мониторинг заболеваний. FractMorph обеспечивает высокую точность и эффективность, устраняя необходимость в специальных настройках и многошаговых сетях. Инновационность заключается в multi-domain spectral-spatial attention, которая эффективно решает проблему высокой сложности и переносимости. #### Выводы Мы представили FractMorph, новую архитектуру для deformable image registration, которая продемонстрировала высокую точность и гибкость на широком диапазоне случаев. В следующих исследованиях мы планируем расширить FractMorph для работы с более сложными изображениями и исследовать его применение в других областях, таких как трансформации данных в цифрово

Annotation:

Deformable image registration (DIR) is a crucial and challenging technique for aligning anatomical structures in medical images and is widely applied in diverse clinical applications. However, existing approaches often struggle to capture fine-grained local deformations and large-scale global deformations simultaneously within a unified framework. We present FractMorph, a novel 3D dual-parallel transformer-based architecture that enhances cross-image feature matching through multi-domain fractio...

ID: 2508.12445v1 eess.IV, cs.CV

arXiv PDF

📄 Segmenting Thalamic Nuclei: T1 Maps Provide a Reliable and Efficient Solution

2025-08-20

Авторы:

Anqi Feng, Zhangxing Bian, Samuel W. Remedios, Savannah P. Hays, Blake E. Dewey, Jiachen Zhuo, Dan Benjamini, Jerry L. Prince

#### Контекст Определение и сегментация значимых групп зеничных ядер является ключевым заданием в понимании неврологических заболеваний, изучении функций мозга и руководстве клиническими вмешательствами. Несмотря на то, что существуют многочисленные подходы к этой задаче, не установлено, какие информационные входы для сегментации дают наиболее надежные результаты. Это делает исследование оптимальных источников информации для улучшения точности и эффективности сегментации неотъемлемым аспектом развития современных методов. #### Метод Для сегментации зеничных ядер были испытаны различные подходы, включая многослойную сверточную нейронную сеть типа 3D U-Net. Исследованы варианты ввода, которые включали традиционные магнитные резонансные снимки (MPRAGE), серии FGATIR, quantitative параметры PD и T1, а также мульти-TI (T1-weighted images с различными инверсионными временами). Для определения наиболее эффективных источников информации была разработана методика, основанная на градиентном анализе с помощью Monte Carlo dropout. Эта методика позволила выделить оптимальные изображения, вносившие самый значительный вклад в процесс сегментации. #### Результаты Использование T1-маппингов в качестве основных входных данных для сегментации показало себя как наиболее эффективное. Эти изображения демонстрировали высокую точность и качество результатов, подтвержденные как квантитативными метриками, так и субъективным оценкам. В то же время, другие варианты ввода, такие как PD-маппинги, не принесли дополнительной пользы и не улучшили полученные результаты. Это указывает на оптимальность T1-маппингов как наиболее простого и надежного источника информации для сегментации зеничных ядер. #### Значимость Результаты имеют перспективу для применения в медицинских исследованиях и клинических практиках, когда необходимо точно определить и сегментировать зеничные ядра. Использование T1-маппингов позволяет значительно сократить время и ресурсы, необходимые для подготовки данных к сегментации, а также повысить точность и надежность результатов. Эти находки могут способствовать улучшению имеющихся методов и оптимизации протоколов импедансной магнитной резонансной томографии. #### Выводы Изучение влияния различных входных данных на качество сегментации зеничных ядер позволило установить значимость T1-маппингов в качестве надежного и эффективного источника. Отмечено, что они предоставляют наиболее точные и качественные результаты в сравнении с другими вариантами. Будущие исследования будут направлены на совершенствование методов сегментации и исследование возможно

Annotation:

Accurate thalamic nuclei segmentation is crucial for understanding neurological diseases, brain functions, and guiding clinical interventions. However, the optimal inputs for segmentation remain unclear. This study systematically evaluates multiple MRI contrasts, including MPRAGE and FGATIR sequences, quantitative PD and T1 maps, and multiple T1-weighted images at different inversion times (multi-TI), to determine the most effective inputs. For multi-TI images, we employ a gradient-based salienc...

ID: 2508.12508v1 eess.IV, cs.CV, q-bio.QM

arXiv PDF

📄 Anatomic Feature Fusion Model for Diagnosing Calcified Pulmonary Nodules on Chest X-Ray

2025-08-20

Авторы:

Hyeonjin Choi, Yang-gon Kim, Dong-yeon Yoo, Ju-sung Sun, Jung-won Lee

## Контекст Идентификация подкостных родитей (calcified pulmonary nodules) на рентгеновских снимках грудной клетки является критической задачей в радиологии, так как она позволяет различать между себе жизненно важной ранней терапией и ненужными инвазивными процедурами. Однако диагностика этого заболевания в практической работе неоднозначна и зависит от оценки визуальной чувствительности врача, что приводит к разным интерпретациям. Более того, пересечение анатомических элементов, таких как кости и спина, усложняет точную определение кальцификационных характеристик. Данное исследование определяет модель, которая способна достичь высокой точности диагностики за счет использования специально обработанных функций, которые уменьшают влияние анатомических элементов, смущающих диагностику. ## Метод Модель, предложенная в этом исследовании, основывается на принципе функционирования сверточных нейронных сетей (CNN), которые применяются для классификации снимков грудной клетки на кальцифицированные и некальцифицированные подкостные родители. Она использует два вида изображений: raw (необработанные) и его структурно-отфильтрованные варианты. Это позволяет минимизировать влияние анатомических элементов, смущающих зрение, и улучшить диагностическую точность. Набор данных состоит из 2,517 неиспражненных и 656 снимков, включающих 151 кальцифицированных и 550 некальцифицированных родителей, полученных из Аджу Университетского госпиталя. ## Результаты Полученные результаты показали, что модель включающая объединенные функции, показала высокую точность 86.52% и AUC (Area Under Curve) 0.8889 в диагностике кальцификационных характеристик. Это привело к увеличению производительности по сравнению с моделью, обученной только на raw-данных, на 3.54% и 0.0385, соответственно. Эти результаты подтверждают эффективность уменьшения структурного влияния в диагностике подкостных родителей. ## Значимость Исследование имеет применение в радиологии и генеральной медицине, так как облегчает и улучшает диагностику подкостных родителей на рентгеновских снимках. Оно может уменьшить зависимость от личных представлений врача и повысить точность диагнозов. Основное преимущество — высокая точность и модель, которая может использоваться в автоматических системах группирования и диагностики. В будущем, модель может быть расширена для диагностики других болезней, основываясь на изображениях грудной клетки. ## Выводы Рассмотренная модель предоставляет решение для текущих проблем в диагностике подкостных родителей

Annotation:

Accurate and timely identification of pulmonary nodules on chest X-rays can differentiate between life-saving early treatment and avoidable invasive procedures. Calcification is a definitive indicator of benign nodules and is the primary foundation for diagnosis. In actual practice, diagnosing pulmonary nodule calcification on chest X-rays predominantly depends on the physician's visual assessment, resulting in significant diversity in interpretation. Furthermore, overlapping anatomical elements...

ID: 2508.12562v1 eess.IV, cs.CV

arXiv PDF

📄 DermINO: Hybrid Pretraining for a Versatile Dermatology Foundation Model

2025-08-19

Авторы:

Jingkai Xu, De Cheng, Xiangqian Zhao, Jungang Yang, Zilong Wang, Xinyang Jiang, Xufang Luo, Lili Chen, Xiaoli Ning, Chengxu Li, Xinzhu Zhou, Xuejiao Song, Ang Li, Qingyue Xia, Zhou Zhuang, Hongfei Ouyang, Ke Xue, Yujun Sheng, Rusong Meng, Feng Xu, Xi Yang, Weimin Ma, Yusheng Lee, Dongsheng Li, Xinbo Gao, Jianming Liang, Lili Qiu, Nannan Wang, Xianbo Zuo, Cui Yong

## Контекст Дерматологические заболевания являются одним из наиболее распространенных типов заболеваний, поражающих до 70% населения. Их высокая преvalence, сложная диагностика и нехватка квалифицированных специалистов в ресурсоподдерживающих регионах создают серьезные проблемы для глобальной системы здравоохранения. Хотя искусственный интеллект (AI) демонстрирует перспективность в анализе дерматологических изображений, существующие модели обычно ограничены исключительно в частных задачах и требуют больших массивов ручного меток. Это снижает их эффективность в реальной практике. Наша модель DermNIO предлагает новый подход к решению этих проблем, став базовым гибридным моделью, которая может задействоваться в разных сферах дерматологии. ## Метод DermNIO основывается на систематичном подходе к обучению моделей. Она обучается на большом датасете, состоящем из 432 776 изображений, полученных из трех источников: открытых репозиториев, веб-источников и проприетарных внутренних коллекций. Для улучшения её общей гибкости и обучения используется новая гибридная фреймворк, включающий в себя элементы self-supervised и semi-supervised learning, а также инициализацию прототипов с помощью знаний. Этот подход действует на различные слои модели, что позволяет улучшить общую точность и способность к generalization. Модель также оптимизируется для задач дерматологии, включая segmentation, classification, и image captioning. ## Результаты DermNIO протестирована на 20 датасетах, сравниваясь с лучшими моделями в своем классе. Она показала существенное превосходство в высокоуровневых задачах, таких как классификация малигнаности, оценка серьезности заболевания, многокатегориальная диагностика, и даже генерация описаний изображений. Кроме того, модель проявила отличные результаты в задачах, таких как segmentation, обладая высокой стабильностью при разных сочетаниях skin type и gender. В клиническом тесте с участием 23 дерматологов, DermNIO показала 95,79% точности в диагностике, что значительно превосходит процент ученых - 73,66%. AI-помощь увеличила производительность клинического состава на 17,21%. ## Значимость DermNIO может применяться в различных сферах, включая диагностические системы, консультации в реальном времени, и улучшение access в ресурсоподдерживающих регионах. Она обладает значительным потенциалом для улучшения качества дерматологического здравоохранения, снижения нагрузки на специалистов и увеличения доступности диагностики. Благодаря своей гибкости, модель может быть адаптирована к разным задачам и слоям, что делает её универсальным инструментом для практического применения. ##

Annotation:

Skin diseases impose a substantial burden on global healthcare systems, driven by their high prevalence (affecting up to 70% of the population), complex diagnostic processes, and a critical shortage of dermatologists in resource-limited areas. While artificial intelligence(AI) tools have demonstrated promise in dermatological image analysis, current models face limitations-they often rely on large, manually labeled datasets and are built for narrow, specific tasks, making them less effective in ...

ID: 2508.12190v1 eess.IV, cs.CV

arXiv PDF

1
2
19
20
21
22
23
26
27

Показано 201 - 210 из 268 записей