📚 Саммари научных статей из arXiv

Найдено 100 результатов по запросу 'eess.IV, cs.AI, cs.CV' Сбросить поиск

📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 RDDM: Practicing RAW Domain Diffusion Model for Real-world Image Restoration

2025-08-28

Авторы:

Yan Chen, Yi Wen, Wei Li, Junchao Liu, Yong Guo, Jie Hu, Xinghao Chen

## Контекст Реалистичное восстановление изображений является ключевым вопросом в сфере обработки изображений, особенно в условиях ограниченных ресурсов или неполных данных. Обычно, восстановление изображений происходит в пространстве sRGB, но этот подход имеет ограничения. Он оперирует ограниченными данными в формате sRGB, лишаясь доступа к более полным данным, например, RAW-данным сенсоров. Эти RAW-данные широко используются в устройствах съемки и могут обеспечить более точное восстановление изображений. При этом, существующие методы работают в пространстве sRGB и сталкиваются с проблемами высокой нагрузки вычислительных ресурсов, а также с риском потери качества при преобразовании из RAW в sRGB. Модель RDDM (RAW Domain Diffusion Model) предлагает решение этих проблем, направляясь на восстановление изображений непосредственно в RAW-домене. Это позволяет избежать проблемы потери качества при преобразовании и обеспечивает более точное восстановление. ## Метод RDDM — это модель, основанная на методе распространения (diffusion), которая восстанавливает цветные изображения непосредственно из данных RAW-сенсора. Она заменяет традиционную схему двух этапов: обработки изображений в пространстве sRGB и интерполяции. Ключевые компоненты RDDM: 1. **RAW-domain VAE (RVAE)** — вариационная автоэнкодерная модель, оптимизирующая закодированные представления в RAW-домене. 2. **Post Tone Processing (PTP)** — модуль, работающий в области RAW и sRGB, позволяющий обучать модель с учетом оптимизации изображений в обоих пространствах. 3. **Configurable Multi-Bayer (CMB) LoRA** — модуль, учитывающий различные шаблоны матриц сенсоров RAW, таких как RGGB, BGGR и другие. RDDM также использует синтетическую научную модель для генерации LQ-HQ пар (RAW-данных) из существующих данных sRGB, чтобы увеличить объем тренировочных данных. ## Результаты Использовались несколько датасетов, включая данные из съемок на разных устройствах, для оценки качества восстановления. Модель RDDM показала существенное улучшение в сравнении с другими моделями работающими в пространстве sRGB. RDDM демонстрирует высокую точность и реалистичность восстановленных изображений с меньшим количеством артефактов. Эксперименты показали, что RDDM превосходит текущие методы в следующих аспектах: - Уменьшение артефактов. - Улучшение фидбэка пользователей. - Повышение эффективности вычислений для RAW-данных. ## Значимость RDDM имеет широкие области применения, включая обработку изображений, съемку видео, реалистичные симуляции для VR/AR и другие сценарии, где качество восстановления изображений критично. В частности: - **Улучшение качества во

Annotation:

We present the RAW domain diffusion model (RDDM), an end-to-end diffusion model that restores photo-realistic images directly from the sensor RAW data. While recent sRGB-domain diffusion methods achieve impressive results, they are caught in a dilemma between high fidelity and realistic generation. As these models process lossy sRGB inputs and neglect the accessibility of the sensor RAW images in many scenarios, e.g., in image and video capturing in edge devices, resulting in sub-optimal perform...

ID: 2508.19154v1 eess.IV, cs.AI, cs.CV

arXiv PDF

📄 Disentangled Multi-modal Learning of Histology and Transcriptomics for Cancer Characterization

2025-08-26

Авторы:

Yupei Zhang, Xiaofei Wang, Anran Liu, Lequan Yu, Chao Li

## Контекст Histopathology остается золотым стандартом для диагностики и прогноза рака. С появлением профилирования транскриптома, мультимодальное обучение, объединяющее транскриптомы с историей, дает более полную картину. Однако существующие мультимодальные подходы сталкиваются с проблемами, такими как внутренняя неоднородность модальностей, недостаточность интеграции на разных масштабах и зависимость от парных данных. Эти ограничения ограничивают клиническую применимость таких подходов. Мы предлагаем дисендентный мультимодальный фреймворк, который оптимизирует выделение информационных подпространств и улучшает интеграцию и обработку данных. ## Метод Мы предлагаем дисендентный фреймворк, состоящий из четырех основных компонентов. Во-первых, мы разделяем изображения выделяемых из образов на видеомагнификации (WSIs) и профили транскриптома на туберовая и микросредовые подпространства с помощью дисендентного модуля слияния. Во-вторых, мы предлагаем стратегию оптимизации, использующую совместное уточнение подпространств. В-третьих, мы предлагаем стратегию уменьшения зависимости от парных данных, используя подготовленные подпространства для прогнозирования без необходимости парных данных. В-четвертых, мы предлагаем модуль сгруппированного выделения токенов, чтобы уменьшить избыточность данных и сохранить семантику подпространств. ## Результаты Мы проверили наш фреймворк на нескольких задачах, включая диагностику, прогноз показателей процесса болезни и прогноз выживаемости. Мы сравнили наш подход со существующими методами и показали значительные преимущества в точности и эффективности. Наши результаты показали, что метод может эффективно обрабатывать сложные мультимодальные данные, где попытки использовать стандартные подходы не принесли такой уровень успеха. ## Значимость Наш подход может быть применен в клинической практике для более точной диагностики, персонализированных прогнозов и выбора терапии. Он предлагает повышенную точность и эффективность по сравнению с существующими подходами. Будущие исследования будут направлены на расширение применения этого подхода на другие области в медицине и научных областях, где требуется обработка мультимодальных данных. ## Выводы Мы представили дисендентный мультимодальный фреймворк, который улучшает обработку и интеграцию данных в области лечения рака. Наши результаты показывают, что этот подход может решить ключевые проблемы мультимодального обучения. Мы продолжим работу над расширением этого подхода для других параллельных задач в клинической практике и естественных науках.

Annotation:

Histopathology remains the gold standard for cancer diagnosis and prognosis. With the advent of transcriptome profiling, multi-modal learning combining transcriptomics with histology offers more comprehensive information. However, existing multi-modal approaches are challenged by intrinsic multi-modal heterogeneity, insufficient multi-scale integration, and reliance on paired data, restricting clinical applicability. To address these challenges, we propose a disentangled multi-modal framework wi...

ID: 2508.16479v1 eess.IV, cs.AI, cs.CV

arXiv PDF

📄 Time-Aware One Step Diffusion Network for Real-World Image Super-Resolution

2025-08-26

Авторы:

Tainyi Zhang, Zheng-Peng Duan, Peng-Tao Jiang, Bo Li, Ming-Ming Cheng, Chun-Le Guo, Chongyi Li

#### Контекст Real-world image super-resolution (Real-ISR) является ключевым заданием в области компьютерного зрения, нацеленным на повышение разрешения изображений с ограниченным качеством. Несмотря на успех многих текущих методов, они часто сталкиваются с проблемами, такими как нехватка эффективности в использовании существующих моделей и недостаточная точность в работе с реальными данными. Актуальность данного исследования заключается в поиске новых подходов, которые могут эффективно использовать предварительно обученные модели моделирования шума (стабильное моделирование шума, SD) для решения Real-ISR. #### Метод Мы предлагаем Time-Aware One-Step Diffusion Network (TADSR) для решения Real-ISR. Главная инновация заключается в использовании Time-Aware VAE Encoder, который вводит временное зависимости в процесс выделения признаков. Это позволяет модели работать с разными шумовыми версиями изображений в зависимости от шага шума (timestep). Кроме того, мы предлагаем Time-Aware VSD loss, который динамически коррелирует шаги шума степени степенисти между студентской моделью и предварительно обученной моделью. Это позволяет лучше оптимизировать синтез изображений, стабилизировав результат и улучшая качество изображения. #### Результаты Мы провели эксперименты на широко известных наборах данных для Real-ISR. Метод TADSR демонстрирует выдающиеся результаты по сравнению с другими методами одношагового подхода. Мы измерили показатели PSNR, SSIM и LPIPS, показав, что наш подход превосходит другие методы по этим метрикам. Благодаря возможности управления шагами шума (timestep), TADSR также обеспечивает контролируемую точность и реализм в результатах. #### Значимость Наш подход может быть применен в различных сценариях, включая супер-разрешение для телекоммуникаций, медицины и видеотрансляций. Преимущества TADSR заключаются в том, что он эффективно использует предварительно обученные модели, не требуя дополнительного обучения или переобучения. Это приводит к повышению эффективности и снижению затрат на ресурсы. Будущие исследования будут направлены на расширение модели для работы с видео и мультискайрным подходом. #### Выводы Метод TADSR доказал свою эффективность в решении Real-ISR, достигнув более высокого качества изображений с меньшими вычислительными затратами. Наши результаты показывают, что динамические временные зависимости и управляемые шаги шума являются ключевыми факторами улучшения результатов. Мы планируем расширить модель для применения в других областях и внедрить ее в реальные системы.

Annotation:

Diffusion-based real-world image super-resolution (Real-ISR) methods have demonstrated impressive performance. To achieve efficient Real-ISR, many works employ Variational Score Distillation (VSD) to distill pre-trained stable-diffusion (SD) model for one-step SR with a fixed timestep. However, due to the different noise injection timesteps, the SD will perform different generative priors. Therefore, a fixed timestep is difficult for these methods to fully leverage the generative priors in SD, l...

ID: 2508.16557v1 eess.IV, cs.AI, cs.CV

arXiv PDF

📄 A Disease-Centric Vision-Language Foundation Model for Precision Oncology in Kidney Cancer

2025-08-26

Авторы:

Yuhui Tao, Zhongwei Zhao, Zilong Wang, Xufang Luo, Feng Chen, Kang Wang, Chuanfu Wu, Xue Zhang, Shaoting Zhang, Jiaxi Yao, Xingwei Jin, Xinyang Jiang, Yifan Yang, Dongsheng Li, Lili Qiu, Zhiqiang Shao, Jianming Guo, Nengwang Yu, Shuo Wang, Ying Xiong

#### Контекст Оценка неоперируемых почечных масс, обнаруживаемых случайно, является ключевым вызовом в урологической онкологии. Частота доброинвазивных или индолентных опухолей приводит к частым оперированиям, необходимости дополнительных исследований и ненужным нагрузке на здравоохранение. Недостаток в эффективных инструментах для характеристики и прогнозирования почечных опухолей способствует перебору в лечении. В этом исследовании разработана и протестирована RenalCLIP — многозадачная визуально-языковая фундаментальная модель для характеристики, диагностики и прогноза почечных опухолей. Модель ставит задачу улучшить диагностическую точность и прогностическую стратификацию, а также обеспечить более персонализированное лечение больных почечными опухолями. #### Метод RenalCLIP была разработана с использованием двухэтапной стратегии предварительного обучения. В первом этапе, модель учитывает домен-специфическую знания для эффективного представления визуальных и текстовых данных. Во втором этапе, изображения и текстовые признаки унифицируются с помощью контрастного обучения, чтобы обеспечить высокую общину и точность диагностики. Модель протестирована на датасете, включающем 27 866 клинических диагнозных отчетов и 27 866 CT-сканах от 8 809 больных, собранных в 9 китайских медицинских центрах, а также на TCIA-когорте. Модель выделяет 10 ключевых клинических задач, включая анатомическую оценку, диагностическую классификацию, и прогнозирование рецидива. Для улучшения эффективности обучения, RenalCLIP использует данные малого размера для достижения лучшего качества, чем базовые модели, обученные на полном датасете. #### Результаты RenalCLIP показала выдающиеся результаты по всем ключевым задачам. Например, в задаче прогноза рецидива-беспричинного выживания в TCIA-когорте, модель достигла C-индекса 0.726, что примерно на 20% лучше существующих базовых моделей. RenalCLIP также продемонстрировала высокую эффективность данных, достигнув пиковой производительности на задачах классификации и ответа на вопросы уже при малом размере обучающих данных. В таких задачах, как генерация отчетов и изображение-текст ретриевл, модель показала стабильно высокие результаты. #### Значимость RenalCLIP представляет собой мощный инструмент для повышения точности диагностики и прогноза почечных опухолей. Она обладает преимуществом в своей мультизадачной природе и высокой эффективности данных. Модель может стать ключевым средством для улучшения клинического рабочего процесса в урологической онкологии, помогая в диагностике

Annotation:

The non-invasive assessment of increasingly incidentally discovered renal masses is a critical challenge in urologic oncology, where diagnostic uncertainty frequently leads to the overtreatment of benign or indolent tumors. In this study, we developed and validated RenalCLIP using a dataset of 27,866 CT scans from 8,809 patients across nine Chinese medical centers and the public TCIA cohort, a visual-language foundation model for characterization, diagnosis and prognosis of renal mass. The model...

ID: 2508.16569v1 eess.IV, cs.AI, cs.CV

arXiv PDF

📄 Explainable Knowledge Distillation for Efficient Medical Image Classification

2025-08-23

Авторы:

Aqib Nazir Mir, Danish Raza Rizvi

## Контекст Область исследования — развитие эффективных инструментов для классификации медицинских изображений, особенно в контексте COVID-19 и рака лёгких. Существуют проблемы, связанные с требованием высокой точности, низким потреблением ресурсов и транспарентностью решений. Наиболее эффективные модели часто требуют больших вычислительных ресурсов, что становится проблемой в клинических условиях. Поэтому, необходима разработка моделей, которые сочетают высокую точность, эффективность и интерпретируемость. Мотивация состоит в разработке систем, которые обладают высоким производительностью и объяснимостью, чтобы обеспечить надежные и практичные решения в области медицинского ИИ. ## Метод Метод заключается в использовании гибридной супервайзед дистилляции для обучения компактной студентской модели на базе ОFA-595 супернета. Работа использует высококачественные теачер-модели, включая VGG19 и лёгкие сети Vision Transformers (Visformer-S и AutoFormer-V2-T). Для обучения используется обобщённая супервайзед дистилляция с использованием граунд-трут етикетов и выходов теачер-моделей в виде мягких целей. Эта модель обучается на двух бенчмарк-датасетах: COVID-QU-Ex и LCS25000. Для визуальной интерпретированности результатов применяется Score-CAM, которая позволяет проанализировать причины прогнозных решений. Методика целью имеет повышение эффективности и доступности решений для клинических применений. ## Результаты Результатами являются наблюдаемые показатели точности, потребление ресурсов и объяснимость моделей. Эксперименты показали, что студентская модель, обученная с помощью дистилляции, сохраняет высокую точность в классификации, в то же время существенно сокращая количество параметров и время инференса. Эти результаты подтверждают эффективность дистилляционного подхода в решении задач классификации медицинских изображений на ресурсоричных устройствах. Данные результаты были получены на двух датасетах COVID-QU-Ex и LCS25000, охватывающих классы COVID-19, здоровый, неCOVID-пневмония, легкие и колонок. Также, проведены визуальные визуализации при помощи Score-CAM, которые позволяют раскрыть причины прогнозов моделей. ## Значимость Результаты имеют значимость в области медицинского ИИ, где эффективность и транспарентность критично важны. Эта модель может быть применена для классификации легких заболеваний, в том числе COVID-19 и рака лёгких, в ресурсозависимых условиях. Улучшенная производительность и снижение потребления ресурсов делают модель привлекательной для кли

Annotation:

This study comprehensively explores knowledge distillation frameworks for COVID-19 and lung cancer classification using chest X-ray (CXR) images. We employ high-capacity teacher models, including VGG19 and lightweight Vision Transformers (Visformer-S and AutoFormer-V2-T), to guide the training of a compact, hardware-aware student model derived from the OFA-595 supernet. Our approach leverages hybrid supervision, combining ground-truth labels with teacher models' soft targets to balance accuracy ...

ID: 2508.15251v1 eess.IV, cs.AI, cs.CV

arXiv PDF

📄 Bladder Cancer Diagnosis with Deep Learning: A Multi-Task Framework and Online Platform

2025-08-23

Авторы:

Jinliang Yu, Mingduo Xie, Yue Wang, Tianfan Fu, Xianglai Xu, Jiajun Wang

## Контекст Клиническая цистоскопия, являющаяся стандартным методом диагностики рака мочевого пузыря, сильно зависит от опыта врача, что приводит к разногласиям и субъективности в результатах диагностики. В связи с этим возникает необходимость в разработке объективных, точных и эффективных вычислительных подходов для улучшения диагностики рака мочевого пузыря. Deep learning, в свою очередь, показал свою эффективность в обработке изображений, что делает его применимым для решения этой проблемы. ## Метод Разработанное многозадачное deep-learning-программное обеспечение призвано улучшить диагностику рака мочевого пузыря с помощью различных моделей. Основной функцией этой модели является классификация рака мочевого пузыря на основе снимков цистоскопии. Для этого использована модель EfficientNet-B0, улучшенная с помощью Convolutional Block Attention Module (CBAM), что позволяет улучшить привлечение признаков. Для сегментации областей интереса рака использована ResNet34-UNet++ с актуализацией внимания и аттенционным гатингом. Для молекулярной классификации использована ConvNeXt-Tiny, которая позволяет определять маркеры HER-2 и Ki-67. Также была разработана интерактивная online-платформа, позволяющая визуализировать результаты работы моделей, работать с разными форматами изображений, устанавливать динамические пороговые значения и предоставлять интерфейс на нескольких языках. ## Результаты В клинических испытаниях модель EfficientNet-B0 с CBAM показала высокую точность (93.28%), F1-меру (82.05%) и AUC (96.41%) для классификации рака мочевого пузыря. Модель сегментации ResNet34-UNet++ с актуализацией внимания и аттенционным гатингом показала Dice-коеффициент в 0.9091. Модель ConvNeXt-Tiny, ответственная за молекулярную классификацию, также достигла высоких результатов. Интегрированная платформа, включающая все разработанные модели, увеличила эффективность диагностики, сделала её более доступной и удобной для пользователей. ## Значимость Разработанное многозадачное deep-learning-решение может быть применено в различных областях урологии для улучшения диагностики рака мочевого пузыря. Внедрение этой модели может повысить точность диагностики, уменьшить зависимость от опыта врача, и облегчить процесс диагностики. Благодаря интегрированной online-платформе, пользователи могут получать реальное время диагностическую информацию, что повышает эффективность диагностического процесса. ## Выводы Разработанный многозадачный подход к диагностике рака мочевого пузыря с помощью deep learning доказал свою эффективность, показав высокую точность, F1-меру и AUC

Annotation:

Clinical cystoscopy, the current standard for bladder cancer diagnosis, suffers from significant reliance on physician expertise, leading to variability and subjectivity in diagnostic outcomes. There is an urgent need for objective, accurate, and efficient computational approaches to improve bladder cancer diagnostics. Leveraging recent advancements in deep learning, this study proposes an integrated multi-task deep learning framework specifically designed for bladder cancer diagnosis from cys...

ID: 2508.15379v1 eess.IV, cs.AI, cs.CV

arXiv PDF

📄 Are Virtual DES Images a Valid Alternative to the Real Ones?

2025-08-23

Авторы:

Ana C. Perre, Luís A. Alexandre, Luís C. Freire

## Контекст Contrast-enhanced spectral mammography (CESM) является более современным видом рентгеновского исследования, которое используется для обнаружения опухолей в груди. Оно генерирует два типа изображений: low-energy (LE) и dual-energy subtracted (DES). Анализ этих изображений позволяет выявить возможные признаки раковых опухолей. Однако DES-изображения требуют дополнительного процесса подавления радиационных воздействий, что может привести к повышенной радиационной нагрузке для пациентов. Технологии искусственного генерирования изображений, такие как image-to-image translation, позволяют создавать виртуальные DES-изображения на основе LE-изображений. Это может снизить риск радиационных последствий, но необходимо проверить, не ухудшится ли качество диагностики при использовании таких виртуальных изображений. ## Метод Для подтверждения возможности использования виртуальных DES-изображений в диагностике были разработаны и протестированы три модели: 1. предобученная модель U-Net; 2. модель U-Net, обученная с помощью end-to-end техники; 3. модель CycleGAN. Эти модели сравнивались с реальными DES-изображениями. Для оценки качества искусственных изображений проводились классификационные эксперименты, направленные на различение малезных и злокачественных опухолей. Использовались данные, содержащие LE-изображения и реальные DES-изображения. ## Результаты Результаты опробований показали, что лучшее качество виртуальных DES-изображений было достигнуто с помощью предобученной модели U-Net. Она показала F1-меру 85,59% при использовании виртуальных DES-изображений, что на 4,76% ниже результата, полученного при использовании реальных DES-изображений (90,35%). Это отличие можно объяснить тем, что реальные DES-изображения содержат дополнительную диагностическую информацию, способствующую точности диагноза. ## Значимость Использование виртуальных DES-изображений может снизить риск радиационных последствий у пациентов, подвергающихся исследованиям CESM. Хотя результат классификации злокачественных и малезных опухолей с виртуальными изображениями слегка ниже, чем при использовании реальных, потенциал технологии важен. В будущем, предполагается, что улучшения моделей и техник генерации виртуальных изображений могут снизить разрыв в качестве диагностики. ## Выводы На основе экспериментов можно сделать вывод, что виртуальные DES-изображения могут стать альтернативой реальным, но требуют дополнительных исследований для достижения того же уровня точности диагноза. Будущие исследования должны сосредоточиться на улучшении моделей и технологий генерации виртуальных изображ

Annotation:

Contrast-enhanced spectral mammography (CESM) is an imaging modality that provides two types of images, commonly known as low-energy (LE) and dual-energy subtracted (DES) images. In many domains, particularly in medicine, the emergence of image-to-image translation techniques has enabled the artificial generation of images using other images as input. Within CESM, applying such techniques to generate DES images from LE images could be highly beneficial, potentially reducing patient exposure to r...

ID: 2508.15594v1 eess.IV, cs.AI, cs.CV

arXiv PDF

📄 Label Uncertainty for Ultrasound Segmentation

2025-08-23

Авторы:

Malini Shivaram, Gautam Rajendrakumar Gare, Laura Hutchins, Jacob Duplantis, Thomas Deiss, Thales Nogueira Gomes, Thong Tran, Keyur H. Patel, Thomas H Fox, Amita Krishnan, Deva Ramanan, Bennett DeBoisblanc, Ricardo Rodriguez, John Galeotti

## Контекст Медицинская имагинг стал важной частью диагностики и лечения многих заболеваний. Одна из самых распространенных задач в этой области — сегментация областей интереса на имажах, таких как легочные ультразвуковые сканы (LUS). Однако существуют серьезные вызовы, связанные с тем, что эти задачи часто требуют интерпретации интервьювером, что приводит к несогласованности в аннотации данных. Например, в LUS часто встречаются области с значительной неоднозначностью, что делает задачу аннотации сложной даже для опытных клиников. Эта неоднозначность приводит к проблеме **label uncertainty**, которая влияет на качество обучения и моделирования AI. Мы предлагаем новый подход, который использует **per-pixel confidence values**, представленные экспертами во время аннотации, для точной моделирования этой неопределенности и улучшения сегментационных моделей. ## Метод Мы предлагаем **novel annotation protocol**, в котором клиники указывают не только лейблы, но и **confidence values** для каждого пикселя. Эти значения представляют собой уверенность клиников в том, что пиксель принадлежит той или иной категории. Мы используем эти показатели в тренировочном процессе AI-моделей вместо обычных лейблов. Наше решение включает в себя **training pipeline**, где алгоритмы обучаются на сгенерированных лейблах с учетом уверенности клиников. Мы также изучаем различные **thresholding approaches** для работы с этими лейблами, что позволяет контролировать точность во время обучения. Этот подход позволяет не только улучшить сегментацию, но и демонстрировать значительные положительные результаты на задачах клинического применения. ## Результаты Мы провели эксперименты на данных LUS, используя различные подходы к обработке уверенности в аннотациях. Наши результаты показывают, что **high confidence thresholds** (например, 60%) дают значительно лучшие результаты по сравнению с низкими порогами (например, 50%). Мы также демонстрируем, что модели, обученные на этих уверенных пикселях, не только показывают лучшую сегментацию, но и позволяют предсказать клинически важные параметры: **S/F oxygenation ratio**, классификацию изменений в S/F ratio и предсказание 30-дневного перепоступления пациентов в больницу. Эти результаты подтверждают, что **confidence-aware training** не только улучшает качество сегментации, но и позволяет моделям выполнять критичные задачи в медицинской практике. ## Значимость Наш подход может быть применен в различных областях медицинской имагинга, где неоднозначность в аннотации является общей проблемой. Это включает LUS, которая часто используется для оценки респираторных заболеваний. Особый потенциал виден в улучшении **downstream clinical tasks**, таких как оценка индекса S/F и прогнозирова

Annotation:

In medical imaging, inter-observer variability among radiologists often introduces label uncertainty, particularly in modalities where visual interpretation is subjective. Lung ultrasound (LUS) is a prime example-it frequently presents a mixture of highly ambiguous regions and clearly discernible structures, making consistent annotation challenging even for experienced clinicians. In this work, we introduce a novel approach to both labeling and training AI models using expert-supplied, per-pixel...

ID: 2508.15635v1 eess.IV, cs.AI, cs.CV, cs.LG, stat.ML

arXiv PDF

📄 Fracture Detection and Localisation in Wrist and Hand Radiographs using Detection Transformer Variants

2025-08-22

Авторы:

Aditya Bagri, Vasanthakumar Venugopal, Anandakumar D, Revathi Ezhumalai, Kalyan Sivasailam, Bargava Subramanian, VarshiniPriya, Meenakumari K S, Abi M, Renita S

#### Контекст Моментальные снимки рук и запястья, так называемые радиографии, являются критически важной частью диагностики в медицинской практике, особенно в случае поражений скелета. Однако, их ручной интерпретации часто привязаны неточности, долгий процесс и ограничения в масштабировании. Особенно актуальным является задача распознавания и локализации переломов на таких снимках. Несмотря на прогресс в искусственном интеллекте, в том числе моделях трансформеров, применение их к выявлению переломов в руках и запястьях остается недостаточно развитым. Наша статья направлена на заполнение этой лакуны, применяя детектор-трансформеры для точного распознавания и локализации переломов на снимках рук и запястьев. #### Метод Для решения задачи были использованы два трансформерных модели, RT-DETR и Co-DETR, которые были приближены с помощью предобученного на COCO-датасете. Анализ был проведен на выборке из 26,000 радиографий с подробными метками, включая локации возможных переломов. Для повышения точности классификации, в рамках каждого снимка были выделены ключевые области с помощью ResNet-50. Для повышения качества встраивания, использовалась супервайзд-контрастное обучение. Результаты были оценены с помощью метрик AP@50, Precision и Recall. Для проверки практического применимости, подвергнуто тестированию на настоящих клинических снимках. #### Результаты RT-DETR показал разумные результаты с AP@50 = 0.39, но был превзойден Co-DETR, который достиг AP@50 = 0.615 и более быстрого схождения. Интегрированная система показала 83.1% точность, 85.1% precision и 96.4% recall на реальных клинических снимках. Эти показатели были достигнуты на 13 типов переломов. Также, визуальный анализ подтвердил точность локализации. #### Значимость Результаты нашей работы демонстрируют значительный потенциал трансформерных моделей в области диагностики переломов в руках и запястьях. Использование Co-DETR обеспечивает высокую точность и эффективность, что позволяет применять его в рабочих процессах медицинских учреждений. Этот подход может ускорить диагностику, улучшить точность и обеспечить масштабируемость, которая особенно важна в средствах помощи в реальном времени. #### Выводы Наша работа показывает, что Co-DETR является эффективным инструментом для распознавания и локализации переломов на снимках рук и запястьев. Он обеспечивает достоверные результаты и может быть использован в реальном времени. Будущие исследования будут направлены на улучшение параметров модели, расширение диапазона диагностируемых повреждени

Annotation:

Background: Accurate diagnosis of wrist and hand fractures using radiographs is essential in emergency care, but manual interpretation is slow and prone to errors. Transformer-based models show promise in improving medical image analysis, but their application to extremity fractures is limited. This study addresses this gap by applying object detection transformers to wrist and hand X-rays. Methods: We fine-tuned the RT-DETR and Co-DETR models, pre-trained on COCO, using over 26,000 annotated ...

ID: 2508.14129v1 eess.IV, cs.AI, cs.CV, 68T45, I.2.10

arXiv PDF

📄 Automated surgical planning with nnU-Net: delineation of the anatomy in hepatobiliary phase MRI

2025-08-22

Авторы:

Karin A. Olthof, Matteo Fusagli, Bianca Güttner, Tiziano Natali, Bram Westerink, Stefanie Speidel, Theo J. M. Ruers, Koert F. D. Kuhlmann, Andrey Zhylka

#### Контекст Оперативное лечение злокачественных опухолей печени требует точной предоперационной планировки, включающей подробную сегментацию анатомических структур. Традиционная планировка часто является времязатратной и требует высокой квалификации специалистов. Нейронные сети, такие как nnU-Net, показали способность автоматизировать этот процесс с высокой точностью, но их применение в hepatobiliary-фазе МРИ не широко изучено. #### Метод Для разработки метода сегментации использовалась методика на основе deep learning с использованием nnU-Net v1. Для обучения сети были использованы 72 пациента, из них 18 пациентов были выделены в тестовый набор для оценки точности. Методика научной работы включала тщательную подготовку данных, адаптацию сети к детальной сегментации тонких структур, таких как билиарные деревья и печеночная ткань, и оценку результатов по критерию Dice similarity coefficient (DSC). #### Результаты В тестовом наборе DSC достигал 0.97 для печеночной ткани, 0.80 для вены печени, 0.79 для билиарного дерева, 0.77 для опухолей, и 0.74 для вены печени. Алгоритм обнаружил три дополнительных опухоли, не замеченные в первичной оценке радиологов. В клинической практике для 10 пациентов, которым был применен алгоритм, были произведены незначительные корректировки средним DSC 0.98 для вены печени, 1.00 для печеночной ткани и 0.95 для билиарного дерева. #### Значимость Разработанная методика позволяет эффективно автоматизировать сегментацию анатомических структур в hepatobiliary-фазе МРИ. Она значительно сокращает время, необходимое для предоперационного планирования, и повышает точность. Это может привести к расширению использования 3D-планирования в стандартной клинической практике. #### Выводы Результаты показывают, что nnU-Net может значительно сузить разрыв между научными достижениями и практическим применением в области оперативного лечения раковых опухолей печени. На будущее, необходимо провести дальнейшие исследования для оценки широкого применения данного метода и уточнения его работы в различных клинических ситуациях.

Annotation:

Background: The aim of this study was to develop and evaluate a deep learning-based automated segmentation method for hepatic anatomy (i.e., parenchyma, tumors, portal vein, hepatic vein and biliary tree) from the hepatobiliary phase of gadoxetic acid-enhanced MRI. This method should ease the clinical workflow of preoperative planning. Methods: Manual segmentation was performed on hepatobiliary phase MRI scans from 90 consecutive patients who underwent liver surgery between January 2020 and Oc...

ID: 2508.14133v1 eess.IV, cs.AI, cs.CV

arXiv PDF

1
2
6
7
8
9
10

Показано 71 - 80 из 100 записей