📚 Саммари научных статей из arXiv

Найдено 268 результатов по запросу 'eess.IV, cs.CV' Сбросить поиск

📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 0

Последнее обновление: сегодня

📄 Brain Tumor Detection Through Diverse CNN Architectures in IoT Healthcare Industries: Fast R-CNN, U-Net, Transfer Learning-Based CNN, and Fully Connected CNN

2025-09-10

Авторы:

Mohsen Asghari Ilani, Yaser M. Banad

#### Контекст Улучшение диагностики раковых опухолей головного мозга (brain tumor) является ключевым аспектом в современной медицине, так как это способствует эффективному лечению и повышению качества жизни пациентов. Традиционные методы диагностики часто требуют долгого времени, требуют высокой квалификации врачей и могут иметь некоторую степью ошибок. Использование Интернета вещей (IoT) в системах охраны здоровья (healthcare) позволяет собирать и анализировать большие объемы данных в реальном времени. Искусственный интеллект (AI), особенно в сфере глубокого обучения (deep learning), становится важной технологией для повышения точности диагностики. Одним из наиболее актуальных задач в этой области является классификация трех основных типов головных тумов: glioma, meningioma и pituitary tumor. Несмотря на предыдущие успехи, существуют проблемы с неоднородностью в образовательных данных и оптимальным выбором архитектуры нейронных сетей. Это способствует мотивации для развития более точных и эффективных моделей для диагностики раковых опухолей головного мозга. #### Метод В данном исследовании использовались различные модели глубокого обучения для классификации типов головных тумов. Методология включала использование Region-based Convolutional Neural Network (R-CNN) и U-Net для сегментации изображений, а также Convolutional Neural Networks (CNN) и CNN-based transfer learning для классификации. В качестве моделей transfer learning были использованы Inception-V3, EfficientNetB4 и VGG19. Данные для обучения и тестирования были получены из MRI-сканеров. Для оценки моделей использовались метрики F-score, recall, precision и accuracy. Также, для проверки моделей на независимых данных, была проведена cross-dataset validation. #### Результаты Исследование продемонстрировало, что Fast R-CNN показала наилучший результат с точностью 99%, F-score 98.5%, AUC 99.4%, recall 99.5% и precision 98.5%. R-CNN и U-Net также доказали свою эффективность в сегментации изображений. Transfer learning-based CNN-модели также показали высокую точность, особенно EfficientNetB2, которая достигла 92.11% точности, recall, F1-score и accuracy при cross-dataset validation. Эти модели демонстрируют способность к обнаружению типов головных тумов в разных условиях и на разных данных, что подтверждает их надежность и работоспособность. #### Значимость Результаты исследования имеют значительное значение для развития технологий в области диагностики головных тумов. Использование AI в IoT-системах охраны здоровья может обеспечить более быструю и точную диагностику, что значительно повысит качество лечения. Модели, разработанные в рамках этого исследования, могут быть применены в системах real-time monitoring и wearable devices, которые собирают данные о состоянии здоровья пациента. Благо

Annotation:

Artificial intelligence (AI)-powered deep learning has advanced brain tumor diagnosis in Internet of Things (IoT)-healthcare systems, achieving high accuracy with large datasets. Brain health is critical to human life, and accurate diagnosis is essential for effective treatment. Magnetic Resonance Imaging (MRI) provides key data for brain tumor detection, serving as a major source of big data for AI-driven image classification. In this study, we classified glioma, meningioma, and pituitary tumor...

ID: 2509.05821v1 eess.IV, cs.CV

arXiv PDF

📄 Impact of Labeling Inaccuracy and Image Noise on Tooth Segmentation in Panoramic Radiographs using Federated, Centralized and Local Learning

2025-09-10

Авторы:

Johan Andreas Balle Rubak, Khuram Naveed, Sanyam Jain, Lukas Esterle, Alexandros Iosifidis, Ruben Pauwels

#### Контекст Диагностика и лечение болезней зубов и десен требуют точного анализа радиографических изображений. Однако существуют проблемы, такие как несогласованность в летописи и помехи в изображениях, которые могут снизить точность алгоритмов машинного обучения. Другой важный аспект — защита конфиденциальности пациента. Федеративное обучение (FL) предлагается как решение этих проблем, позволяя обучать модели без прямого доступа к данным. #### Метод В исследовании применялась модель Attention U-Net для сегментации зубов на радиографиях панорамы. Данные собрались с шести медицинских учреждений. Исследовались 4 сценария повреждения данных: 1. Несогласованность меток (для проверки точности сегментации при изменении или отсутствии меток). 2. Несоответствие качества изображений (добавление шума Гаусса). 3. Исключение клиента с поврежденными данными. 4. Базовый сценарий без помех. FL был реализован с использованием Flower AI Framework. Метрики оценивались на тестовом комплекте, включая Dice, IoU, HD, HD95 и ASSD. #### Результаты - **Базовый сценарий:** FL показал высокую точность в сегментации (Dice: 0.94889, ASSD: 1.33229), почти на уровне CL (Dice: 0.94706, ASSD: 1.37074), но выше LL. - **Несогласованность меток:** FL поддержал высокую точность (Dice: 0.94884, ASSD: 1.46487), при этом CL (Dice: 0.94183, ASSD: 1.75738) и LL (Dice: 0.93003-0.94026, ASSD: 1.51910-2.11462) показали заметно более низкие показатели. - **Шум в изображении:** FL достиг Dice 0.94853 (ASSD: 1.31088), CL — 0.94787 (ASSD: 1.36131), LL — 0.93179-0.94026 (ASSD: 1.51910-1.77350). - **Исключение клиента с поврежденными данными:** FL показал лучший результат (Dice: 0.94790, ASSD: 1.33113) по сравнению с CL (Dice: 0.94550, ASSD: 1.39318). #### Значимость FL доказал свою эффективность в сравнении с CL и LL во всех сценариях. Он обеспечивает строгую защиту конфиденциальных данных, обучая модели с учетом разнородных источников данных. Также FL имеет практическое значение для реализации ска\-ля\-ру\-емых AI-решений в стоматологии. #### Выводы FL показал себя эффективнее CL и LL в сценариях с поврежденными данными. Траектории потерь по клиентам помогают обнаруживать аномалии в данных. Этот подход является перспективным для расширения применения AI в стоматологии, сохранив при этом конфиденциальность данных. Будущие исследования будут фокусироваться на расширении FL на другие типы данных и улучшении методик обнаружения оши

Annotation:

Objectives: Federated learning (FL) may mitigate privacy constraints, heterogeneous data quality, and inconsistent labeling in dental diagnostic AI. We compared FL with centralized (CL) and local learning (LL) for tooth segmentation in panoramic radiographs across multiple data corruption scenarios. Methods: An Attention U-Net was trained on 2066 radiographs from six institutions across four settings: baseline (unaltered data); label manipulation (dilated/missing annotations); image-quality mani...

ID: 2509.06553v1 eess.IV, cs.CV, cs.LG

arXiv PDF

📄 Contrastive Anatomy-Contrast Disentanglement: A Domain-General MRI Harmonization Method

2025-09-10

Авторы:

Daniel Scholz, Ayhan Can Erdur, Robbie Holland, Viktoria Ehm, Jan C. Peeken, Benedikt Wiestler, Daniel Rueckert

## Контекст В современной медицине и научных исследованиях магнитная резонансная импульсивная зондирование (MRI) является неотъемлемым инструментом для обнаружения и изучения различных заболеваний. Однако существуют значительные различия в изображениях, полученных на различных сканерах или с использованием различных параметров съемки. Эти различия снижают степень схожести сигналов и могут привести к ошибкам в диагностике или ошибкам при сравнении данных из разных источников. Эти ограничения ограничивают общую эффективность и достоверность медицинских исследований. Наша мотивация заключается в разработке метода, который позволит объединить различные изображения и устранить различия в контрасте, чтобы обеспечить более точные и повторяемые результаты в клинических исследованиях. ## Метод Мы предлагаем новую архитектуру, основанную на условной автоэнкодерной сети с использованием распределенной автоэнкодера, адаптированной для обработки изображений MRI. Наша модель включает условный диффузионный механизм, который учитывает особенности контраста изображений, а также специальный механизм, который позволяет сохранить паттерны анатомии. Мы применяем специальные техники, такие как условный генеративный моделирований, чтобы связать различные сканеры и уравновести изображения. Наша модель работает на основе квантизации изображений и использования глубоких нейронных сетей для моделирования различных контрастов и анатомических структур. ## Результаты Мы проводили эксперименты с использованием данных, полученных на различных сканерах, для оценки эффективности процедуры. Наши результаты показали, что наш метод достиг улучшений в +7% в метрике Peak Signal-to-Noise Ratio (PSNR) на данных из многих сканеров, а также +18% в моделировании возраста на невиденных данных. Это указывает на то, что наша модель не только улучшает выравнивание контраста, но и позволяет получать более достоверные результаты во временных рядах. Мы также проверили нашу модель на новых изображениях, которые не были использованы во время обучения, и получили положительные результаты, подтверждающие универсальность нашего подхода. ## Значимость Наш подход имеет широкие приложения в клинических исследованиях и в области медицины. Он позволяет объединить результаты из разных сканеров, улучшить точность диагноза и повысить точность в области нейрологии, онкологии и других научных областях. Данный подход также улучшает общую целостность и повторяемость данных, что может способствовать лучшему пониманию и выявлению различных заболеваний. Мы видим будущие направления исследований в развитии методов для других зондировани

Annotation:

Magnetic resonance imaging (MRI) is an invaluable tool for clinical and research applications. Yet, variations in scanners and acquisition parameters cause inconsistencies in image contrast, hindering data comparability and reproducibility across datasets and clinical studies. Existing scanner harmonization methods, designed to address this challenge, face limitations, such as requiring traveling subjects or struggling to generalize to unseen domains. We propose a novel approach using a conditio...

ID: 2509.06592v1 eess.IV, cs.CV

arXiv PDF

📄 MM-DINOv2: Adapting Foundation Models for Multi-Modal Medical Image Analysis

2025-09-10

Авторы:

Daniel Scholz, Ayhan Can Erdur, Viktoria Ehm, Anke Meyer-Baese, Jan C. Peeken, Daniel Rueckert, Benedikt Wiestler

## Контекст Область медицинского интеллектуального анализа данных становится все более важной в современной медицине, поскольку задачи классификации и определения медицинских состояний чрезвычайно важны для диагностики и лечения различных заболеваний. Несмотря на прогрессы в области машинного обучения, многие медицинские задачи столкнутся с проблемами, такими как ограниченность медицинских данных, несогласованность в данных, а также высокая стоимость и сложность получения медицинских анализов. В частности, многие задачи классификации требуют обработки нескольких модальностей данных (например, изображений и текстов), что делает их еще более сложной. В этом контексте возникает потребность в поиске эффективных решений, которые могут обрабатывать несколько модальностей данных, обучаться с помощью малого количества отмеченных данных и обеспечивать высокую точность. ## Метод Мы предлагаем MM-DINOv2 — развитие универсальной модели DINOv2, которая была изначально разработана для обработки изображений, но недостаточно эффективна для многомодальных задач в медицине. Мы расширяем DINOv2, предлагая новую многомодальную архитектуру, которая может обрабатывать несколько модальностей данных (например, изображения и текстовые метки). Для улучшения обучения в условиях недостатка отмеченных данных, мы используем подходы семи-супервайзед обучения, которые позволяют модели учиться из неотмеченных данных. Мы также вводим полную маскировку модальности, чтобы она могла быть обучена даже в случае отсутствия определенных модальностей. Это позволяет модели не только обрабатывать отсутствующие данные, но и выводить информацию из других модальностей. ## Результаты Мы проводим эксперименты на задаче классификации типов глиомы из многопоследовательных MRI. Мы используем DINOv2 в качестве основы и сравниваем его с нашим MM-DINOv2. Мы получаем следующие результаты: точность классификации на внешнем тестовом наборе данных составила 0,62 при использовании MM-DINOv2, что значительно выше результатов DINOv2 (+11,1%). Кроме того, мы проводим эксперименты на других задачах медицинского анализа и показываем, что наш подход значительно улучшает качество предсказаний в случаях, когда отсутствуют некоторые модальности данных. ## Значимость Наш подход имеет многочисленные применения в различных медицинских задачах, которые требуют обработки многомодальных данных. Например, в области нейрологии, где требуется классификация типов глиомы, или в районе онкологии, где требуется определять раннюю стадию рака. Мы усиливаем точность и надежность медицинских предсказаний в условиях недостатка отмеченных данных

Annotation:

Vision foundation models like DINOv2 demonstrate remarkable potential in medical imaging despite their origin in natural image domains. However, their design inherently works best for uni-modal image analysis, limiting their effectiveness for multi-modal imaging tasks that are common in many medical fields, such as neurology and oncology. While supervised models perform well in this setting, they fail to leverage unlabeled datasets and struggle with missing modalities, a frequent challenge in cl...

ID: 2509.06617v1 eess.IV, cs.CV

arXiv PDF

📄 Inferring the Graph Structure of Images for Graph Neural Networks

2025-09-09

Авторы:

Mayur S Gowda, John Shi, Augusto Santos, José M. F. Moura

#### Контекст Графовые нейронные сети (GNN) представляют собой мощный инструмент для обработки и анализа графовых данных. Одним из ключевых приложений GNN является классификация изображений, где изображения представляются в виде графов. Обычно изображения преобразуются в графы, где узлы соответствуют пикселям, а ребра — связям между соседними пикселями по вертикали и горизонтали. Несмотря на эффективность такого представления, оно может не совсем отражать структурные отношения в изображении. Это приводит к потере информации и уменьшению точности GNN в классификации. В данной работе рассматривается поиск альтернативных структур графов для представления изображений, чтобы улучшить точность GNN в задачах классификации. #### Метод Мы предлагаем новую методологию для построения графов, которая использует корреляционные отношения между пикселями в изображении. Для каждого изображения из датасета MNIST и Fashion-MNIST проводится расчет корреляции по строкам, столбцам и произведению этих корреляций. Это позволяет построить альтернативные графы, где узлы соответствуют пикселям, а ребра — связями, отражающими корреляционные отношения. Эти графы представляются в виде входных данных для GNN. Мы также сравниваем результаты с классическим подходом, где изображения представляются в виде грид-графов или методами суперпикселей. #### Результаты Использование альтернативных графов, построенных на основе корреляционных отношений, позволило улучшить точность классификации GNN в задачах, основанных на MNIST и Fashion-MNIST. Эксперименты показали, что графы, построенные на основе продуктных корреляций, дают наибольшую дополнительную информацию и приводят к повышению точности классификации по сравнению с традиционными методами. Эти результаты указывают на важность использования более точных представлений графов для улучшения GNN. #### Значимость Наш подход может быть применен в различных областях, где изображения представляются в виде графов, таких как анализ изображений в медицине, автомобилестроении и робототехнике. Альтернативные представления графов обеспечивают более точное отражение структурных отношений в изображении, что приводит к улучшению точности классификации и общей эффективности GNN. Это делает нашу работу важной для развития графовых методов в обработке изображений. #### Выводы Мы установили, что альтернативные графовые представления, основанные на корреляционных отношениях, могут значительно повысить эффективность GNN в задачах классификации изображений. Будущие исследования будут сконцентрированы на расширении этого под

Annotation:

Image datasets such as MNIST are a key benchmark for testing Graph Neural Network (GNN) architectures. The images are traditionally represented as a grid graph with each node representing a pixel and edges connecting neighboring pixels (vertically and horizontally). The graph signal is the values (intensities) of each pixel in the image. The graphs are commonly used as input to graph neural networks (e.g., Graph Convolutional Neural Networks (Graph CNNs) [1, 2], Graph Attention Networks (GAT) [3...

ID: 2509.04677v1 eess.IV, cs.CV, cs.LG, eess.SP

arXiv PDF

📄 AURAD: Anatomy-Pathology Unified Radiology Synthesis with Progressive Representations

2025-09-09

Авторы:

Shuhan Ding, Jingjing Fu, Yu Gu, Naiteek Sangani, Mu Wei, Paul Vozila, Nan Liu, Jiang Bian, Hoifung Poon

#### Контекст Medical image synthesis является ключевым подходом для увеличения размеров данных и улучшения общей модели в клинических сценариях с недостатком данных. Однако создание тонкой и контролируемой синтезированной сигнатуры остается сложной задачей из-за нехватки высококачественных аннотаций и сдвигов доменов между различными наборами данных. Традиционные методы, разработанные для естественных изображений или определенных типов опухолей, эффективно работают в ограниченных условиях, но не могут охватить различные морфологические модели болезней в радиологических изображениях, где патологии тесно взаимосвязаны с анатомическими структурами. Обратившись к этому вопросу, мы предлагаем AURAD — систему контролируемого синтеза рентгеновых изображений, которая эффективно решает эти проблемы. #### Метод AURAD — прогрессивная фреймворк, который синтезирует высококачественные рентгеновые изображения и псевдосегментационные маски. Метод использует клинические мотивационные стимулы, которые кондиционируют процесс генерации масок, чтобы получить максимальную диверсификацию и клиническую релевантность. Эта последовательная процедура состоит из двух этапов: на первом этапе маски генерируются из клинических запросов, а затем эти маски направляют процесс синтеза изображений. Мы также интегрируем экспертные модели медицинского анализа для фильтрации выходных данных, чтобы гарантировать их клиническую правдоподобность. Этот подход обеспечивает не только реалистичность визуального синтеза, но и создает полезные маски для сегментации и детекции в реальных задачах клинического применения. #### Результаты Мы провели серию экспериментов для оценки эффективности и генерализации нашего подхода. Результаты показали, что 78% синтезированных изображений были классифицированы как реальные борд-сертифицированными радиологами. Помимо этого, более 40% предсказанных сегментационных масок были оценены как клинически полезные. Эти результаты подтверждают высокую точность и значимость AURAD для реального клинического применения. #### Значимость AURAD может быть применен в различных клинических сценариях, где необходимо увеличение количества данных и повышение точности моделей. Его основные преимущества заключаются в высокой контролируемости, улучшенной реалистичности и связи с клиническими задачами. Этот подход может влиять на области, такие как диагностика, сегментация и классификация болезней, обеспечивая новые возможности для развития искусственного интеллекта в медицине. #### Выводы AURAD демонстрирует существенный прогресс в области контролируемого синтеза медицин

Annotation:

Medical image synthesis has become an essential strategy for augmenting datasets and improving model generalization in data-scarce clinical settings. However, fine-grained and controllable synthesis remains difficult due to limited high-quality annotations and domain shifts across datasets. Existing methods, often designed for natural images or well-defined tumors, struggle to generalize to chest radiographs, where disease patterns are morphologically diverse and tightly intertwined with anatomi...

ID: 2509.04819v2 eess.IV, cs.CV

arXiv PDF

📄 Multi-modal Uncertainty Robust Tree Cover Segmentation For High-Resolution Remote Sensing Images

2025-09-09

Авторы:

Yuanyuan Gui, Wei Li, Yinjian Wang, Xiang-Gen Xia, Mauro Marty, Christian Ginzler, Zuyuan Wang

## Контекст Изучение зеленого покрова земли, включая детальное разбиение на индивидуальные деревья, является ключевым заданием в сфере географических и экологических исследований. Это важно для поддержки принятия решений в таких областях, как урбанизация, масштабирование лесов, мониторинг экосистем и экологическое оценование. Технологии семантической сегментации, объединяющие различные виды данных, такие как оптические снимки, LiDAR и SAR, достигли высокой точности. Однако, существуют серьезные затруднения, связанные с временными различиями в получении данных, которые могут привести к несоответствию между модальностями. Это приводит к неопределенности в разделении зон, особенно при работе с высокоразрешными изображениями. Наша исследовательская группа ставит себе цель сконцентрироваться на решении этой проблемы, создав метод, который не только устраняет неопределенность, но и позволяет ей работать в пользу улучшения точности. ## Метод Мы предлагаем **MURTreeFormer**, многомодальный фреймворк сегментации, который стремится устранить неопределенность и улучшить точность разделения покрова деревьев. Основная идея заключается в использовании одной модальности как основной, в то время как другие модальности будут относиться к вспомогательным. Мы используем вариационную автоэнкодерическую модель (VAE) для моделирования и работы с неопределенностью в вспомогательных модальностях. Неуверенные области обрабатываются с помощью процедуры ресемплинга, которая позволяет улучшить качество данных, используя основную модальность. Более того, в декодере внедрена модель **Gradient Magnitude Attention (GMA)**, которая направляет внимание модели на характеристики, схожие с деревьями, а также **Lightweight Refinement Head (RH)**, используемую для сохранения тонких деталей. Эта гибкая конфигурация позволяет модели лучше адаптироваться к изменениям в зеленом покрове. ## Результаты Мы провели значительные эксперименты на двух многомодальных датасетах: из Шанхая и Цюриха. В этих экспериментах использовались ряд модальностей, включая оптические снимки, LiDAR и SAR. Результаты показали, что **MURTreeFormer** значительно повышает точность сегментации в сравнении с современными методами, особенно в условиях временных расхождений между модальностями. Мы также обнаружили, что наша модель эффективно обрабатывает неопределенность, связанную с разными условиями погоды и факторами, влияющими на качество изображений. Это указывает на то, что **MURTreeFormer** может быть применено в реальных условиях, где нет возможности контролировать временные различия. ## Значимость Результаты нашего исследования им

Annotation:

Recent advances in semantic segmentation of multi-modal remote sensing images have significantly improved the accuracy of tree cover mapping, supporting applications in urban planning, forest monitoring, and ecological assessment. Integrating data from multiple modalities-such as optical imagery, light detection and ranging (LiDAR), and synthetic aperture radar (SAR)-has shown superior performance over single-modality methods. However, these data are often acquired days or even months apart, dur...

ID: 2509.04870v1 eess.IV, cs.CV

arXiv PDF

📄 VLSM-Ensemble: Ensembling CLIP-based Vision-Language Models for Enhanced Medical Image Segmentation

2025-09-09

Авторы:

Julia Dietlmeier, Oluwabukola Grace Adegboro, Vayangi Ganepola, Claudia Mazo, Noel E. O'Connor

#### Контекст Визуально-языковые модели (Vision-Language Models, VLM) и их применение к задачам сегментации изображений открывают большой потенциал для получения точных и интерпретируемых результатов. Однако существующие реализации, основанные на CLIP и BiomedCLIP, всё ещё отстают по производительности по сравнению с более высокоуровневыми архитектурами, такими как CRIS. Это делает сложной проблему повышения точности и обоснованности результатов. В данной работе мы решаем эту проблему, показав, как можно создавать пакеты VLM-систем (VLSM-Ensemble) с низкой сложностью CNN, для повышения эффективности. Наша цель — показать, что энсемблирование может стать эффективным способом для улучшения показателей сегментации медицинских изображений. #### Метод Мы предлагаем методологию, которая включает в себя создание пакета VLSM-Ensemble, состоящего из нескольких VLM-моделей (в частности, BiomedCLIPSeg) и низкоуровневого CNN. Этот пакет оптимизируется для улучшения точности сегментации медицинских изображений. Архитектура включает в себя несколько слоёв, в которых каждая модель VLM принимает входное изображение и выполняет свою сегментацию. Затем эти результаты объединяются с помощью CNN, который выполняет финальную сегментацию, учитывая вклад каждой модели. Мы использовали данные из различных больничных и небольничных наборов данных, включая BKAI-полип, для экспериментов. #### Результаты Мы провели эксперименты, сравнив нашу VLSM-Ensemble с CRIS, одной из самых высокоуровневых архитектур. На BKAI-полип-датсете, наша модель показала увеличение Dice-score на 6.3% в сравнении с BiomedCLIPSeg. На других датасетах рост Dice-score составил от 1% до 6%. Это указывает на то, что энсемблирование может быть эффективным на некоторых датасетах, но может и не сработать на других. Данные показывают, что различия в показателях сегментации могут быть связаны с характером данных и тонкостями сегментации. #### Значимость Предлагаемая модель может быть применена в различных областях медицины, где необходима точная сегментация медицинских изображений, включая радиологию, нейрологию и другие. Одним из основных преимуществ является увеличение точности сегментации в сравнении с отдельными моделями VLM. Эта модель также может быть применена для улучшения понимания интерпретации результатов, так как она использует несколько моделей для объединения результатов. Это может быть полезно для разработки более надёжных инструментов для клинического применения. #### Выводы Мы показали, что энсемблирование VLSM может значительно улучшить Dice-score в сегментации медицинских изображений. Однако результаты на разных датасетах отличают

Annotation:

Vision-language models and their adaptations to image segmentation tasks present enormous potential for producing highly accurate and interpretable results. However, implementations based on CLIP and BiomedCLIP are still lagging behind more sophisticated architectures such as CRIS. In this work, instead of focusing on text prompt engineering as is the norm, we attempt to narrow this gap by showing how to ensemble vision-language segmentation models (VLSMs) with a low-complexity CNN. By doing so,...

ID: 2509.05154v1 eess.IV, cs.CV

arXiv PDF

📄 Towards Early Detection: AI-Based Five-Year Forecasting of Breast Cancer Risk Using Digital Breast Tomosynthesis Imaging

2025-09-05

Авторы:

Manon A. Dorster, Felix J. Dorfner, Mason C. Cleveland, Melisa S. Guelen, Jay Patel, Dania Daye, Jean-Philippe Thiran, Albert E. Kim, Christopher P. Bridge

## Контекст Поражение молочной железы (РМЖ) — одна из наиболее распространенных и серьезных заболеваний женщин, которая требует своевременного и точного выявления для успешного лечения. Несмотря на развитие технологий, текущие модели оценки риска РМЖ достигают скромных результатов и не включают в свои модели цифровые маммографии (DBT), одобренные ФДА в 2011 году для дефективного скрининга РМЖ. Большинство текущих моделей используют либо 2D-изображения маммографии, либо традиционные факторы риска, что не достаточно точно оценивает риск заболевания. Таким образом, существует необходимость в развитии более точных инструментов, которые могут включать в свои модели перспективу 5-летнего риска РМЖ на основе DBT. ## Метод Мы предлагаем глубоко сетевую архитектуру, основанную на уникальном подходе, который использует Meta AI DINOv2 в качестве интерпретирующего слоя для извлечения признаков из 3D-изображений DBT. Данные извлекаются с помощью нейронной сети, которая работает в паре с компонентом оценки риска, основанным на слое стохастического частотного хазарта. Мы разработали подробную архитектуру, которая может не только оценивать риск РМЖ на основе многочисленных DBT-изображений, но и предсказывать 5-летний риск заболевания. Мы использовали исторический набор данных, включающий 161 753 цифровых маммографий, выполненных в течение 5 лет, для обучения и проверки нашей модели. ## Результаты Наши эксперименты показали, что лучшая модель достигла AUROC (Area Under the Receiver Operating Characteristic Curve) в 0,80 для предсказания 5-летнего риска РМЖ на тестовой выборке. Этот результат показывает, что наш подход может быть успешно использован для формирования более точных оценок риска РМЖ, сравнимых с традиционными методами оценки. Мы также проанализировали узкие слои и показали, что новый подход имеет высокую точность при прогнозировании сигнаторов риска на основе изображений. ## Значимость Наша работа открывает новые возможности для стандартизированного и эффективного определения риска с помощью цифровых маммографий. Она может быть использована в существующих риск-ассесмент-моделях, улучшая их точность и обеспечивая более точную оценку риска РМЖ. Этот подход может быть использован как дополнение к существующим моделям оценки риска, особенно тем, которые используют данные РМЖ в течение многих лет. Мы также рассматриваем возможность применения этой модели для раннего выявления РМЖ и для улучшения личностной оценки риска на основе индивидуальных конкретных факто

Annotation:

As early detection of breast cancer strongly favors successful therapeutic outcomes, there is major commercial interest in optimizing breast cancer screening. However, current risk prediction models achieve modest performance and do not incorporate digital breast tomosynthesis (DBT) imaging, which was FDA-approved for breast cancer screening in 2011. To address this unmet need, we present a deep learning (DL)-based framework capable of forecasting an individual patient's 5-year breast cancer ris...

ID: 2509.00900v1 eess.IV, cs.CV, cs.LG

arXiv PDF

📄 Ultrasound-based detection and malignancy prediction of breast lesions eligible for biopsy: A multi-center clinical-scenario study using nomograms, large language models, and radiologist evaluation

2025-09-05

Авторы:

Ali Abbasian Ardakani, Afshin Mohammadi, Taha Yusuf Kuzan, Beyza Nur Kuzan, Hamid Khorshidi, Ashkan Ghorbani, Alisa Mohebbi, Fariborz Faeghi, Sepideh Hatamikia, U Rajendra Acharya

#### Контекст Оценка лимфомы и её классификация в области онкологии и радиологии является ключевым аспектом диагностики и терапии. Несмотря на развитие изобразительных методов, повышение точности диагноза и предсказания клинических результатов остается вызовом. Особенностью заболеваний лимфомы является их широкий спектр клинических проявлений и разнообразие биологических свойств, что затрудняет объединение подходов к диагностике. Необходимость в развитии методов, объединяющих клинические, иммунологические и индивидуальные медицинские данные, является мотивацией для этого исследования. #### Метод Исследование основывается на многоцентровой коллекции пациентов с утвержденными патологическими выявлениями лимфомы. Использовались данные по 1747 женщинам с биопсийно подтвержденными подозрениями на рак груди. Для каждой железы извлечены 10 BIRADS-признаков и 26 морфометрических характеристик. Номинаторы, включающие эти признаки, построены с помощью логистической регрессии. Дополнительно, дезидентифицированные изображения желез разделены на тренировочную и валидационную выборку. Проведены сравнительные эксперименты с использованием статистических моделей, моделей машинного обучения и оценки трёх радиологов (один старший, два общих). #### Результаты В целом, статистическая модель, объединяющая BIRADS и морфометрические признаки, показала наивысшую точность в рекомендации биопсии (83.0%) и предсказании мальиности (83.8%). Эта модель превзошла отдельные модели (BIRADS и морфометрические), трёх радиологов и двух моделей текстовых генераторов (ChatGPT). Внешняя валидация показала высокую общую ценность и генерализуемость модели в разных ультразвуковых системах и демографических группах. #### Значимость Результаты имеют перспективу для улучшения клинических решений в области рак груди. Интегрированные BIRADS-морфометрические номинаторы предлагают интерпретируемый инструмент для уменьшения числа ненужных биопсий и повышения точности классификации. Инновационные подходы, основанные на глубоком обучении и номинации, могут способствовать более персонализированной и эффективной медицинской практике. #### Выводы Интегрированные BIRADS-морфометрические номинаторы доказали свою превосходность по сравнению с отдельными моделями и экспертной оценкой. Они обеспечивают перспективу для повышения точности диагноза и понижения риска ненужных биопсий в области рак груди. Будущие исследования будут фокусироваться на уточнении моделей и их примен

Annotation:

To develop and externally validate integrated ultrasound nomograms combining BIRADS features and quantitative morphometric characteristics, and to compare their performance with expert radiologists and state of the art large language models in biopsy recommendation and malignancy prediction for breast lesions. In this retrospective multicenter, multinational study, 1747 women with pathologically confirmed breast lesions underwent ultrasound across three centers in Iran and Turkey. A total of 10 ...

ID: 2509.00946v1 eess.IV, cs.CV

arXiv PDF

1
2
13
14
15
16
17
26
27

Показано 141 - 150 из 268 записей