📚 Саммари научных статей из arXiv

Найдено 100 результатов по запросу 'eess.IV, cs.AI, cs.CV' Сбросить поиск

📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 A Systematic Study of Deep Learning Models and xAI Methods for Region-of-Interest Detection in MRI Scans

2025-08-22

Авторы:

Justin Yiu, Kushank Arora, Daniel Steinberg, Rohit Ghiya

## Контекст Магнитная резонансная импульсивная томография (MRI) является ключевым инструментом в диагностике различных мышечно-суставных повреждений, в том числе в области оценки травм коленных суставов. Однако традиционный метод анализа МРТ-сканов, основанный на ручном интерпретировании снимков, является дорогостоящим, времязатратным и субъективным. Ошибки в оценке или несогласованность между специалистами часто приводят к неточным диагнозам и неверным лечебным решениям. Это способствует необходимости развития автоматизированных систем оценки здоровья суставов, которые могли бы улучшить точность диагностики и сократить время, затрачиваемое на консультации. В этом исследовании мы стремимся рассмотреть современные глубокие нейронные сети и методы объясняемого ИИ (xAI) для решения проблемы обнаружения регионов интереса (ROI) в классификации МРТ-сканов коленных суставов. Особое внимание уделяется сравнению различных архитектур нейронных сетей и методов объяснения, чтобы определить наиболее эффективные подходы в этой области. ## Метод Для этого исследования выбраны несколько моделей глубокого обучения, включая ResNet50, InceptionV3, Vision Transformers (ViT), а также различные варианты U-Net с классификаторами на основе многослойных перцептров (MLP). Для улучшения интерпретируемости и клинической значимости применены методы xAI, такие как Grad-CAM и Saliency Maps. Модели были обучены и оценивались на MRNet dataset, который содержит 1,400 сканов МРТ коленных суставов с метками для обнаружения трех классов: нормального состояния, классификации повреждений лигаментов и суставных подвисаний. Метрики оценки включают AUC для классификации и PSNR/SSIM для реконструкции изображений. Также были проведены квалитативные оценки за счет визуализации регионов интереса (ROI). ## Результаты В результатах оказалось, что ResNet50 показал самые высокие результаты в классификации и обнаружении ROI. Эта модель показала лучший AUC и наиболее точные результаты в идентификации повреждений, особенно в сравнении с transformer-based моделями, такими как ViT. Хотя U-Net с MLP показали сильные результаты в реконструкции изображений, их классификационная точность оставалась ниже, чем у ResNet50. Методы xAI, такие как Grad-CAM, стабильно демонстрировали наиболее понятные и клинически значимые объяснения для всех моделей. ## Значимость Результаты этого исследования имеют большое значение для области медицинского искусственного интеллекта и медицинской диагностики. Использование CNN-based моделей, таких как ResNet50, может ускорить процесс диагностики и снизить веро

Annotation:

Magnetic Resonance Imaging (MRI) is an essential diagnostic tool for assessing knee injuries. However, manual interpretation of MRI slices remains time-consuming and prone to inter-observer variability. This study presents a systematic evaluation of various deep learning architectures combined with explainable AI (xAI) techniques for automated region of interest (ROI) detection in knee MRI scans. We investigate both supervised and self-supervised approaches, including ResNet50, InceptionV3, Visi...

ID: 2508.14151v2 eess.IV, cs.AI, cs.CV

arXiv PDF

📄 Uncertainty-Aware Learning Policy for Reliable Pulmonary Nodule Detection on Chest X-Ray

2025-08-21

Авторы:

Hyeonjin Choi, Jinse Kim, Dong-yeon Yoo, Ju-sung Sun, Jung-won Lee

#### ## Контекст Область диагностики люминального рака лёгкого, одного из наиболее распространённых видов злокачественных новообразований, представляет собой критически важную задачу, так как раннее выявление и агрессивное лечение могут существенно повысить прогноз заболевания. Однако необходимость в надежной и точной диагностике сталкивается с рядом проблем, в том числе относительной степени достоверности диагноста, зависящей от опыта и утомительности врача-диагноста. Несмотря на то, что Медицинский Искусственный Интеллект (МИИ) становится всё более распространённым средством помощи в диагностике, многие врачи остаются скептическими относительно достоверности его выводов, что мешает полному использованию МИИ в клинической практике. Основной причиной этого скептицизма является недостаточное описание неопределённости в выводах МИИ, что может привести к ошибкам диагностики. Для решения этих проблем предлагается разработать подход, учитывающий не только информацию о подозрительных областях на рентгеновских снимках груди, но и фоновую знаний, которую обычно используют врачи в процессе диагностики. #### ## Метод Предложенная модель Uncertainty-Aware Learning Policy основывается на комбинации информации с рентгеновских снимков груди и знаний о классических приёмах диагностики, используемых врачами. Основная идея состоит в том, что не только изображения, но также фоновые знания врачей, такие как клинические опыт и общие принципы диагностики, должны быть включены в обучение модели. Модель использует архитектуру, которая позволяет не только выявлять подозрительные области на изображениях, но также оценивать неопределённость в своих выводах. Эта неопределённость измеряется с помощью метрики энтропии, которая снижается в результате обучения модели. Данные для обучения и тестирования были получены из Аджо Университетского Больничного Издания, включая 2517 изображений без подозрительных образований и 656 изображений с подозрительными образованиями. #### ## Результаты В результате экспериментов показано, что модель Uncertainty-Aware Learning Policy достигла значительных улучшений по сравнению с базовой моделью. Она показала улучшение точности диагностики (детекции областей, содержащих подозрительные образования) на 92% (интервал доверия 0.2 / FPPI 2), что составляет прирост в 10% по сравнению с базовой моделью. Более того, модель уменьшила меру неопределённости (энтропию) на 0.2, что означает более уверенный вывод в предсказаниях. Эти результаты показывают, что включение фонового знания в обучение значительно повышает точность и уменьшает неопреде

Annotation:

Early detection and rapid intervention of lung cancer are crucial. Nonetheless, ensuring an accurate diagnosis is challenging, as physicians' ability to interpret chest X-rays varies significantly depending on their experience and degree of fatigue. Although medical AI has been rapidly advancing to assist in diagnosis, physicians' trust in such systems remains limited, preventing widespread clinical adoption. This skepticism fundamentally stems from concerns about its diagnostic uncertainty. In ...

ID: 2508.13236v1 eess.IV, cs.AI, cs.CV

arXiv PDF

📄 Comparing Conditional Diffusion Models for Synthesizing Contrast-Enhanced Breast MRI from Pre-Contrast Images

2025-08-21

Авторы:

Sebastian Ibarra, Javier del Riego, Alessandro Catanese, Julian Cuba, Julian Cardona, Nataly Leon, Jonathan Infante, Karim Lekadir, Oliver Diaz, Richard Osuala

## Контекст Синтез контрастирующих (DCE) магнитных резонансных изображений брення нетрадиционными способами является обязательным условием для новых подходов в диагностике и лечении рака молочной железы. Однако использование контрастных веществ имеет ряд проблем, включая потенциальные побочные эффекты, контраиндикации, высокую стоимость и усложнение процесса диагностики. Машинное обучение, особенно генерирующие модели, предлагается в качестве альтернативы для создания DCE-изображений из предпочатьевых (пре-контрастных) изображений. Хотя такие модели уже были предложены, они либо недостаточно эффективны, либо не полностью учитывают особенности зон рака молочной железы в изображениях. Целью этого исследования является разработка и оценка генерирующих моделей, ориентированных на более точный синтез DCE-изображений с учетом конкретных зон интереса. ## Метод Для создания DCE-изображений были использованы модели диффузионной денойзинг-пробабилистической модели, которые различаются типом условия (пре-контрастное изображение) и подходами к синтезу (различные архитектуры сетей и критерии ошибки). Были рассмотрены 22 вариантов моделей, включая модели с различными уровнями сложности и использованием дополнительных информации, такой как разметка зон интереса. Модели оценивались в трех различных настройках: одно- и много-групповой синтез, с учетом различных критериев качества. Для улучшения результатов внедрены новые подходы, такие как зондирующий потери и условное влияние сегментационных масок, чтобы улучшить точность и реализм синтезируемых изображений. ## Результаты В ходе экспериментов были проанализированы показатели качества синтеза DCE-изображений, включая оценку природности изображений, точность зон рака молочной железы, и подробности зоней интереса. Модели, использующие подход с подразделением изображений на подмножества с учетом различных зон интереса, показали лучшую точность и реализм по сравнению с другими подходами. Применение зондирующих потерь и разметки сегментационных масок также привело к повышению качества изображений, особенно в зонах с раковыми опухолями. Кроме того, в рамках клинического испытания, в котором принимали участие радиологи и магнитно-резонансные технологи, было подтверждено высокий реализм синтезируемых изображений. ## Значимость Разработанные модели могут быть использованы в клинической практике для создания контрастирующих изображений без необходимости использования контрастных веществ. Это снижает риск побочных эф

Annotation:

Dynamic contrast-enhanced (DCE) MRI is essential for breast cancer diagnosis and treatment. However, its reliance on contrast agents introduces safety concerns, contraindications, increased cost, and workflow complexity. To this end, we present pre-contrast conditioned denoising diffusion probabilistic models to synthesize DCE-MRI, introducing, evaluating, and comparing a total of 22 generative model variants in both single-breast and full breast settings. Towards enhancing lesion fidelity, we i...

ID: 2508.13776v1 eess.IV, cs.AI, cs.CV

arXiv PDF

📄 A Novel Attention-Augmented Wavelet YOLO System for Real-time Brain Vessel Segmentation on Transcranial Color-coded Doppler

2025-08-21

Авторы:

Wenxuan Zhang, Shuai Li, Xinyi Wang, Yu Sun, Hongyu Kang, Pui Yuk Chryste Wan, Yong-Ping Zheng, Sai-Kit Lam

#### Контекст Область исследования сосредоточена на автоматизации сегментации круга Уиллиса (Circle of Willis, CoW) с использованием Transcranial Color-coded Doppler (TCCD). Этот подход имеет критическое значение для ранней диагностики и мониторинга ишемических инсультов, так как CoW играет важную роль в обеспечении постоянного кровотока к мозгу. Несмотря на выгоды TCCD, включая радиационное безопасность, доступность и низкую стоимость, ограничения в его использовании связаны с требованием высокой квалификации операторов для идентификации анатомических структур и выполнения коррекций углов. Это ограничивает широкое применение TCCD в клинических практиках. Мы предлагаем новую систему, основанную на AI, для реального времени, которая автоматизирует сегментацию круга Уиллиса и уменьшает зависимость от операторского опыта. #### Метод Мы предложили новую сеть Attention-Augmented Wavelet YOLO (AAW-YOLO), которая использует волновую модификацию YOLO и внимательные механизмы для обработки данных TCCD. Методология включает в себя несколько шагов: использование волновой преобразовательной нейронной сети для выделения финерных деталей анатомических структур, повышения чувствительности к небольшим изменениям, и использование внимательных модулей для повышения локализации артерий. Мы также разработали высококачественный датасет, состоящий из 738 аннотированных кадров и 3419 значков артерий, чтобы обеспечить эффективную моделирование и оценку системы. Для интеграции в реальном времени включены такие техники, как оптимизация скорости и эффективность вычислений. #### Результаты Мы оценили AAW-YOLO на нашем датасете, получив высокую точность и качество сегментации. Система достигла следующих показателей: абсолютная точность (Dice) — 0.901, интервальный универсальный показатель (IoU) — 0.823, точность (precision) — 0.882, восстановление (recall) — 0.926, и средняя точность оценки (mAP) — 0.953. Эти результаты показывают, что наш подход показал высокую точность в сегментации как ипсилатеральных, так и контралатеральных артерий круга Уиллиса. Была также достигнута высокая скорость работы — 14.199 мс в кадре, что позволяет использовать систему в реальном времени. Эти результаты демонстрируют высокую эффективность системы в решении проблемы необходимости высокой квалификации операторов в клинической практике. #### Значимость Наш подход имеет перспективы применения в клинических рабочих процессах, особенно в тех областях, где требуется простая, доступная и быстрая система для анализа круга Уиллиса. Он может быть использован для повышения до

Annotation:

The Circle of Willis (CoW), vital for ensuring consistent blood flow to the brain, is closely linked to ischemic stroke. Accurate assessment of the CoW is important for identifying individuals at risk and guiding appropriate clinical management. Among existing imaging methods, Transcranial Color-coded Doppler (TCCD) offers unique advantages due to its radiation-free nature, affordability, and accessibility. However, reliable TCCD assessments depend heavily on operator expertise for identifying a...

ID: 2508.13875v1 eess.IV, cs.AI, cs.CV

arXiv PDF

📄 Deep Learning-Based Automated Segmentation of Uterine Myomas

2025-08-19

Авторы:

Tausifa Jan Saleem, Mohammad Yaqub

## Контекст Утровные миомы (фиброиды) являются самыми распространенными бенигными образованиями женской репродуктивной системы, в основном возникающими у женщин в период логического возраста. Их предварительная частота превышает 70%, что делает их важной проблемой в женской репродуктивной здравоохранении. Основные клинические симптомы, такие как необычный кроветечный отвык, бесплодие, боли в нижней части живота и давление, играют ключевую роль в принятии решений о лечении, которые зависят от размера, количества и анатомического расположения миом. Магнитная резонансная имагометрия (MRI) является неинвазивным и высокоточным методом диагностики, который широко применяется клиниками для обнаружения утровных миом. Однако автоматическое сегментирование этих образований требует точного анализа имеющихся магнитных резонансных сканов, включая измерение объема, формы и пространственного расположения. Это процесс требует большого времени, ручного труда и подвержен субъективности в интерпретации результатов, в зависимости от уровня опыта специалистов. Исследования показали, что внедрение искусственного интеллекта, а именно глубоких обучаемых алгоритмов, может упростить этот процесс, обеспечив более точный, однородный и эффективный подход к сегментации. ## Метод В данном исследовании проводится использование глубоких обучаемых нейронных сетей для автоматической сегментации утровных миом. Базой для обучения сети послужил публичный датасет Uterine Myoma MRI Dataset (UMD), который предоставил к масштабной аналитике и аккуратной метрической обработке. Разработанная модель включает несколько слоёв конволюции и полносвязных слоёв, чтобы построить репрезентации визуальных данных. Метод также использует адаптивные функции регуляризации и активации для повышения точности и стабильности результатов. Основной вывод — сеть распознает и отделяет области миом от здоровой ткани на сканах MRI с высокой точностью и быстродействием. ## Результаты В ходе экспериментов был изучено влияние различных гиперпараметров на качество сегментации. Модель была протестирована на независимых выборках данных из UMD. Результаты показали, что сеть демонстрирует более высокую точность и меньшую дисперсию в сравнении с другими алгоритмами, ранее применявшимися к этой задаче. Для оценки качества установленные метрики включали меру Jaccard, Dice и метрику точности. Эти показатели подтвердили высокую эффективность алгоритма в сегментации утровных миом. ## Значимость Разработанный метод имеет широкие перспективы применения в клиничес

Annotation:

Uterine fibroids (myomas) are the most common benign tumors of the female reproductive system, particularly among women of childbearing age. With a prevalence exceeding 70%, they pose a significant burden on female reproductive health. Clinical symptoms such as abnormal uterine bleeding, infertility, pelvic pain, and pressure-related discomfort play a crucial role in guiding treatment decisions, which are largely influenced by the size, number, and anatomical location of the fibroids. Magnetic R...

ID: 2508.11010v1 eess.IV, cs.AI, cs.CV

arXiv PDF

📄 DINOMotion: advanced robust tissue motion tracking with DINOv2 in 2D-Cine MRI-guided radiotherapy

2025-08-15

Авторы:

Soorena Salari, Catherine Spino, Laurie-Anne Pharand, Fabienne Lathuiliere, Hassan Rivaz, Silvain Beriault, Yiming Xiao

#### Контекст В области 2D-Cine MRI-guided radiotherapy, точное трекеринге мозгового движения является критически важной задачей для обеспечения качественных результатов лечения и максимальной безопасности. Несмотря на развитие методов регистрации последовательных изображений, существующие подходы часто сталкиваются с проблемами, такими как большие несоответствия и недостаточность интерпретируемости результатов. Эти ограничения могут привести к неточному определению активных зон и, как следствие, к неэффективности терапии. Наша мотивация заключается в разработке системы, которая не только обеспечит точность, но и повысит транспарентность процесса трекеринга движения. #### Метод Мы предлагаем DINOMotion — новую систему на основе DINOv2 с использованием Low-Rank Adaptation (LoRA) для улучшения процесса трекеринга. Основной инновацией является использование LoRA, что позволяет сократить количество параметров, обучаемых моделью, увеличив ее эффективность. DINOv2, в свою очередь, обеспечивает мощные механизмы выделения фич и значительную устойчивость к большим несоответствиям в последовательных изображениях. Наша система не требует итеративного оптимизационного процесса; она динамически вычисляет регистрацию в реальном времени. Это позволяет значительно сократить время обработки и обеспечить высокую производительность. #### Результаты Мы провели эксперименты на двух типах данных: данных с волонтеров и пациентов. DINOMotion показала высокую точность в оценке линейных и нелинейных преобразований движения. Для жировой железы, кишечника и легких были получены Dice-оценки 92.07%, 90.90% и 95.23% соответственно. Для этих регионов также были оценены Hausdorff-расстояния — 5.47 мм, 8.31 мм и 6.72 мм. Эти результаты показали превосходство системы над другими существующими методами, особенно при трекеринге больших несоответствий. Мы также измерили время работы системы, которое составляет приблизительно 30 мс для каждого скана, что делает DINOMotion подходящим для реального времени. #### Значимость Наша система предлагает значительные преимущества для реального времени трекеринга движения в 2D-Cine MRI-guided radiotherapy. Она обеспечивает интерпретируемость результатов, точность высокой степени и высокую производительность. Такие характеристики позволяют значительно улучшить точность и безопасность терапии, а также увеличить скорость и эффективность работы медицинских специалистов. Мы планируем расширить применение DINOMotion на различные медицинские задачи, в том числе для других видов имплантов и трекеринга движения в реальном времени. #### Вывод

Annotation:

Accurate tissue motion tracking is critical to ensure treatment outcome and safety in 2D-Cine MRI-guided radiotherapy. This is typically achieved by registration of sequential images, but existing methods often face challenges with large misalignments and lack of interpretability. In this paper, we introduce DINOMotion, a novel deep learning framework based on DINOv2 with Low-Rank Adaptation (LoRA) layers for robust, efficient, and interpretable motion tracking. DINOMotion automatically detects ...

ID: 2508.10260v1 eess.IV, cs.AI, cs.CV

arXiv PDF

📄 AMRG: Extend Vision Language Models for Automatic Mammography Report Generation

2025-08-15

Авторы:

Nak-Jun Sung, Donghyun Lee, Bo Hwa Choi, Chae Jung Park

## Контекст Маммографическая отчетность — это критическая задача в области медицинского искусственного интеллекта, характеризующаяся сложностями, такими как многоплоскостная разметка изображений, высокорезольвентные визуальные признаки и неструктурированная радиологическая лексикография. Несмотря на важность этой задачи, она остается недостаточно исследована. Существующие подходы часто ограничены в своих возможностях и не могут обеспечить стабильную и точную генерацию отчетов. Это привело к появлению значительного лага в развитии медицинских приложений, использующих мультимодальные подходы. Мотивация для этого исследования — заполнить этот пробел, обеспечив эффективную и точную систему для генерации маммографических отчетов, которая может быть использована в практических ситуациях. ## Метод Мы предлагаем AMRG (Automatic Mammography Report Generation) — первую комплексную систему для автоматической генерации маммографических отчетов на основе больших моделей визуально-языковых моделей (VLMs). Мы используем MedGemma-4B-it, доменно-специализированную инструкционно-уточненную модель, и применяем Low-Rank Adaptation (LoRA) в качестве метода параметрического оптимизационного адаптирования с минимальным потреблением ресурсов. Эта архитектура включает в себя несколько этапов: (1) подготовка входных данных, включая разметку изображений и текстовых отчетов; (2) основной этап обучения с использованием LoRA; (3) тестирование на отдельных наборах данных. Мы использовали DMID, открытый набор данных, который содержит многочисленные пары высокорезольвентных изображений и диагностических отчетов. ## Результаты Мы провести подробное экспериментальное исследование, используя различные модели VLM, включая общего назначения и домен-специализированные. Мы выполнили многочисленные эксперименты с различными конфигурациями LoRA, чтобы определить наилучшую комбинацию параметров. Наши результаты показали существенное улучшение в ключевых метриках, включая ROUGE-L (0.5691), METEOR (0.6152), CIDEr (0.5818) и BI-RADS accuracy (0.5582). Квалитативный анализ показал, что AMRG обеспечивает более точное воспроизведение диагностических признаков и снижает частоту халлуцинаций. ## Значимость Предлагаемая модель может быть применена в различных сценариях, включая помощь в обработке данных в радиологических центрах и создание консультационных отчетов для врачей. Она представляет собой важное дополнение к инструментам радиологического диагностирования и может улучшить точность диагностики и эффективность работы врачей. Благодаря тому, что AM

Annotation:

Mammography report generation is a critical yet underexplored task in medical AI, characterized by challenges such as multiview image reasoning, high-resolution visual cues, and unstructured radiologic language. In this work, we introduce AMRG (Automatic Mammography Report Generation), the first end-to-end framework for generating narrative mammography reports using large vision-language models (VLMs). Building upon MedGemma-4B-it-a domain-specialized, instruction-tuned VLM-we employ a parameter...

ID: 2508.09225v1 eess.IV, cs.AI, cs.CV

arXiv PDF

📄 T-CACE: A Time-Conditioned Autoregressive Contrast Enhancement Multi-Task Framework for Contrast-Free Liver MRI Synthesis, Segmentation, and Diagnosis

2025-08-15

Авторы:

Xiaojiao Xiao, Jianfeng Zhao, Qinmin Vivian Hu, Guanghui Wang

#### Контекст Магнитная резонансная имагинг (MRI) является одной из ведущих методик диагностики злокачественных опухолей, в том числе злокачественных опухолей печени. Она существенно повышает точность классификации опухолей и положительные результаты лечения. Однако применение MRI средствами контрастных реагентов сопряжено с некоторыми ограничениями: рисками, связанными с введением контрастных веществ, долгомручной оценки исследований и недостатком аннотированных данных. Эти проблемы становятся более актуальными в условиях роста требований к безопасности и эффективности медицинских процедур. Наша мотивация заключается в разработке метода, решающего эти проблемы, ориентированном на синтез контрастных изображений из неконтрастных, обеспечивающем более безопасную и эффективную диагностику. #### Метод Мы предлагаем Time-Conditioned Autoregressive Contrast Enhancement (T-CACE) — мультизадачный фреймворк, основанный на авторегрессионной модели для синтеза контрастных изображений. Основными инновациями являются: 1. **Conditional Token Encoding (CTE) Mechanism**, который кодирует анатомические признаки и информацию о временных фазах в единую векторную модель. 2. **Dynamic Time-Aware Attention Mask (DTAM)**, регулируя информационный поток между фазами через механизм Gaussian-decayed attention, что обеспечивает плавные и физиологически логичные переходы между фазами. 3. **Temporal Classification Consistency (TCC)**, алгоритм, гарантирующий согласование классификации злокачественных опухолей с природой естественного течения физиологических сигналов. #### Результаты Мы проверили T-CACE на двух независимых датасетах MRI жировой железы. Модель показала значительное превосходство по сравнению с текущими методами в области синтеза изображений, сегментации и классификации злокачественных опухолей. Например, на тестовой выборке показала увеличение точности классификации на 15% по сравнению с базовой аутентичной моделью. Эти результаты подтверждают то, что T-CACE является эффективным инструментом для улучшения безопасности и эффективности диагностики. #### Значимость Преимущества T-CACE заключаются в безопасности (избавление от рисков, связанных с контрастными реагентами), эффективности (автоматическое синтез изображений) и улучшении классификации злокачественных опухолей. Модель имеет широкий потенциал в клинической практике, включая улучшение точности диагноза, снижение рисков и увеличение эффективности работы специалистов. Наша работа может способствовать развитию медицины, обеспечивая безопасные, точные и эффективные методы диагностики. #### Выводы Мы представили T-CACE — первый

Annotation:

Magnetic resonance imaging (MRI) is a leading modality for the diagnosis of liver cancer, significantly improving the classification of the lesion and patient outcomes. However, traditional MRI faces challenges including risks from contrast agent (CA) administration, time-consuming manual assessment, and limited annotated datasets. To address these limitations, we propose a Time-Conditioned Autoregressive Contrast Enhancement (T-CACE) framework for synthesizing multi-phase contrast-enhanced MRI ...

ID: 2508.09919v1 eess.IV, cs.AI, cs.CV

arXiv PDF

📄 MIND: A Noise-Adaptive Denoising Framework for Medical Images Integrating Multi-Scale Transformer

2025-08-14

Авторы:

Tao Tang, Chengxu Yang

## Контекст Медицинские изображения являются ключевым инструментом в диагностике заболеваний, а их качество имеет прямое влияние на точность клинических оценок. Однако существуют несколько факторов, которые приводят к появлению шума в изображениях, такие как недостаточное дозирование при сканировании, ограничения оборудования и визуальные артефакты. Эти факторы приводят к неровному шуму, который серьезно сказывается на распознавании структур и обнаружении недугов. Для решения этой проблемы требуется эффективный подход к денойсингу медицинских изображений, который мог бы улучшить качество изображений и облегчить взаимодействие с ими в процессе диагностики и лечения. ## Метод Модель MI-ND представляет собой новую модель денойсинга медицинских изображений, использующую многомерную архитектуру, включающую конволюционные слои и Transformer. Она включает в себя два основных компонента: нивелятор шума (NLE) и модуль адаптивного внимания (NAAB). NLE оценивает уровень шума в изображении, а NAAB регулирует внимание канала и пространственное построение изображений. Эти модули работают вместе для достижения лучшего восстановления структур и стабильности изображений, даже при наличии шума. Метод также использует кросс-модальную функцию слияния, чтобы обеспечить устойчивость к различным видам шума и кросс-модальным изменениям. ## Результаты Исследования проводились на нескольких многомодальных общедоступных наборах данных. Эксперименты показали, что MI-ND значительно превосходит конкурирующие методы по таким показателям как PSNR, SSIM и LPIPS. Она также повышает F1-меру и ROC-AUC в задачах диагностики, что демонстрирует ее сильную практическую ценность и потенциал для улучшения медицинских изображений. В частности, MI-ND эффективно восстанавливает структуры, повышает чувствительность диагностики и демонстрирует кросс-модальную устойчивость. Эти результаты подтверждают высокую эффективность модели в решении проблем, связанных с шумом в медицинских изображениях. ## Значимость Модель MI-ND может применяться в различных областях медицинской информатики, включая диагностику, лечение и оценку качества изображений. Ее преимущества заключаются в том, что она обеспечивает точное восстановление структур, улучшает чувствительность диагностики и демонстрирует высокую устойчивость к разным видам шума. Эти достижения могут способствовать улучшению качества диагностики, облегчению процессу лечения и повышению уровня доступности медицинских услуг. Будущие исследования будут сосредоточены на улучшении модели для б

Annotation:

The core role of medical images in disease diagnosis makes their quality directly affect the accuracy of clinical judgment. However, due to factors such as low-dose scanning, equipment limitations and imaging artifacts, medical images are often accompanied by non-uniform noise interference, which seriously affects structure recognition and lesion detection. This paper proposes a medical image adaptive denoising model (MI-ND) that integrates multi-scale convolutional and Transformer architecture,...

ID: 2508.07817v2 eess.IV, cs.AI, cs.CV, cs.LG, cs.MM

arXiv PDF

📄 Trustworthy Medical Imaging with Large Language Models: A Study of Hallucinations Across Modalities

2025-08-13

Авторы:

Anindya Bijoy Das, Shahnewaz Karim Sakib, Shibbir Ahmed

## Контекст Модели языка (LLMs) в настоящее время применяются в различных медицинских областях, включая анализ изображений и генерацию синтетических изображений. Однако они часто создают "халлуцинации", то есть выдают уверенные, но неверные ответы, которые могут привести к ошибкам в клинических решениях. Это затрудняет доверие к таким системам в клинической практике. В нашем исследовании мы экспериментально рассматриваем две стороны LLM применения в медицинских изображениях: интерпретацию изображений (image-to-text) и генерацию изображений (text-to-image). Наша мотивация заключается в изучении ошибок, таких как фактические несоответствия и анатомические неточности, и в оценке качества вывода моделей с помощью критериев, разработанных экспертами. Таким образом, мы нацелены на улучшение надежности и безопасности LLM-движений в области медицинской импровизации. ## Метод Мы использовали две основные методики для подробного изучения "халлуцинаций" в LLM-движениях. В первой, интерпретация изображений, мы использовали ряд синтетических и реальных медицинских изображений (X-ray, CT, MRI) и сравнили выводы моделей с экспертной оценкой. Во второй, генерация изображений, мы выдавали моделям клинические задачи и анализировали генерируемые изображения в сравнении с исходными клиническими данными. Для оценки качества мы использовали критерии, основанные на знаниях экспертов. Наши методы учитывают различные аспекты, включая тип модели, тип изображения и характер ошибок. Эта кросс-модальная оценка позволяет краткосрочно проанализировать и выявить типичные модели халлуцинаций, а также помочь сформировать рекомендации для улучшения медицинских LLM-систем. ## Результаты Мы провели эксперименты с несколькими моделями LLM, включая общего назначения и медицинские конкретные. Наши результаты показали, что модели часто создают фактические ошибки и анатомические неточности, даже когда выводы выглядят уверенными. Например, в интерпретации изображений, модели часто забывали упомянуть ключевые детали, а в генерации изображений, создавали неточные структуры. Ошибки различались в зависимости от типа изображения и модели. Мы также выявили зависимость ошибок от размера модели, а также от характера обучающих данных. Наши результаты подтверждают, что халлуцинации являются такими же распространенными в интерпретации, как и в генерации, и что они могут привести к серьезным последствиям в клинической практике. ## Значимость Наши результаты имеют важное значение для разных сфер применения. Мы показали, что "халлуцина

Annotation:

Large Language Models (LLMs) are increasingly applied to medical imaging tasks, including image interpretation and synthetic image generation. However, these models often produce hallucinations, which are confident but incorrect outputs that can mislead clinical decisions. This study examines hallucinations in two directions: image to text, where LLMs generate reports from X-ray, CT, or MRI scans, and text to image, where models create medical images from clinical prompts. We analyze errors such...

ID: 2508.07031v1 eess.IV, cs.AI, cs.CV

arXiv PDF

1
2
7
8
9
10

Показано 81 - 90 из 100 записей