📚 Саммари научных статей из arXiv

Найдено 44 результатов по запросу 'eess.IV, cs.CV, cs.LG' Сбросить поиск

📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 Efficient Breast and Ovarian Cancer Classification via ViT-Based Preprocessing and Transfer Learning

2025-09-25

Авторы:

Richa Rawat, Faisal Ahmed

## Контекст Актуальность исследований в области раннего диагноза рака груди и овариям бесценна, так как эти заболевания находятся среди ведущих причин смертности у женщин. Несмотря на развитие медицинских технологий, существуют значительные проблемы, связанные с трудоемкостью и ресурсоемкостью традиционных методов диагностики. Традиционные подходы, основанные на ручном анализе импедиангов, компьютеризированных томографий и ультразвуковых изображений, требуют долгого времени и специализированных профессионалов. В этой статье предлагается использовать архитектуру Vision Transformer (ViT) для развития более эффективного метода классификации этих онкологических заболеваний. Технология ViT обеспечивает более точный и автоматизированный процесс диагностики, что сокращает время реагирования и повышает точность диагноза. ## Метод Для разработки метода классификации используется Vision Transformer с предобученной моделью ViT-Base-Patch16-224, которая адаптируется для классификации изображений на выборки BreakHis (для бинарной классификации) и UBC-OCEAN (для классификации на пять классов). Изображения вводятся в специальный препроцессинг-процесс, который преобразует импедианговые изображения в стандартизированные PyTorch-тензоры. Этот метод позволяет использовать ViT с меньшим временем обучения и повышенной точностью. Использование предобученной модели ViT существенно сокращает время обучения и позволяет достичь более высокой точности, чем при использовании традиционных CNN-моделей. Для обучения и тестирования использованы данные, которые не были предварительно усложнены с помощью аугментации. ## Результаты Проведенные эксперименты показали, что модель ViT-based превосходит в точности многие другие методы, включая CNN, ViT и данные, основанные на топологических данных, в бинарной классификации. Для классификации на пять классов, модель ViT-based показала высокую эффективность в сравнении с топологическими методами, использовавшимися ранее. Этот подход удалось повысить точность диагностики за счет точной препроцессинг-процедуры и предобученной модели ViT. Таким образом, эта модель демонстрирует значительное повышение точности классификации в сравнении с другими конкурентными алгоритмами. ## Значимость Результаты этого исследования имеют важное значение в области медицинских исследований, так как они позволяют существенно улучшить процесс классификации рака груди и оварий. Модель ViT-based может быть применена в различных областях, включая нейронные сети для диагностики и терапии рака. Улучшение точности диагностики может привести к более быстрому и то

Annotation:

Cancer is one of the leading health challenges for women, specifically breast and ovarian cancer. Early detection can help improve the survival rate through timely intervention and treatment. Traditional methods of detecting cancer involve manually examining mammograms, CT scans, ultrasounds, and other imaging types. However, this makes the process labor-intensive and requires the expertise of trained pathologists. Hence, making it both time-consuming and resource-intensive. In this paper, we in...

ID: 2509.18553v1 eess.IV, cs.CV, cs.LG

arXiv PDF

📄 The Missing Piece: A Case for Pre-Training in 3D Medical Object Detection

2025-09-23

Авторы:

Katharina Eckstein, Constantin Ulrich, Michael Baumgartner, Jessica Kächele, Dimitrios Bounias, Tassilo Wald, Ralf Floca, Klaus H. Maier-Hein

## Контекст 3D медицинская объектная детекция является ключевым компонентом точного компьютерно-помогаемого диагностирования. Однако полноценное использование 3D-информации в обучении моделей остается недостаточно исследовано. Использование 2D медицинских данных или изображений натуры в качестве примеров предварительного обучения не позволяет достичь полного потенциала 3D-технологий. Это вызывает проблемы в получении точных и универсальных моделей для детекции 3D-объектов в медицине. Наша мотивация заключается в изучении методов предварительного обучения, которые могут способствовать улучшению точности 3D-детекторов. ## Метод Мы используем предварительно обученные сети, ориентированные на задачу 3D-детекции, для сравнения различных методов предварительного обучения. Методы включают в себя изображения натуры, 2D медицинские изображения и 3D-реконструкцию. Работа охватывает архитектуры на основе сверток (CNNs) и трансформеров (Transformers). Данные для обучения были получены из различных больших медицинских баз данных. Наша методология включает эксперименты с различными типами 3D-детекторов, чтобы оценить эффективность каждого метода предварительного обучения. ## Результаты Мы провели эксперименты с несколькими детекторами и датасетом, такими как LIDC-IDRI и 3D-CT-сканирования. Результаты показали, что предварительное обучение на 3D-реконструкции показало самые высокие результаты, превосходя обучение на изображениях натуры и 2D медицинских данных. Также мы обнаружили, что трансформеры показали более высокую универсальность по сравнению с CNN-архитектурами. Однако предварительное обучение на основе контрастирования не дало существенных выигрышей. Эти находки подтверждают, что предварительное 3D-обучение может улучшить точность детекции в различных сценариях клинического применения. ## Значимость Наши результаты имеют решающее значение для медицинских областей, где точность детекции 3D-объектов критична, таких как диагностика рака и оперативная планировка. Использование предварительного обучения позволяет значительно сократить время обучения и улучшить точность детекторов. Кроме того, наш подход может быть применен к разным архитектурам, включая трансформеры, что делает его универсальным и применимым в различных медицинских задачах. ## Выводы Мы установили, что предварительное обучение на 3D-реконструкции является наиболее эффективным методом для улучшения 3D-детекторов. Данные находки открывают путь к будущим исследованиям в области предварительного обучения для 3D-меди

Annotation:

Large-scale pre-training holds the promise to advance 3D medical object detection, a crucial component of accurate computer-aided diagnosis. Yet, it remains underexplored compared to segmentation, where pre-training has already demonstrated significant benefits. Existing pre-training approaches for 3D object detection rely on 2D medical data or natural image pre-training, failing to fully leverage 3D volumetric information. In this work, we present the first systematic study of how existing pre-...

ID: 2509.15947v1 eess.IV, cs.CV, cs.LG

arXiv PDF

📄 PRISM: Probabilistic and Robust Inverse Solver with Measurement-Conditioned Diffusion Prior for Blind Inverse Problems

2025-09-23

Авторы:

Yuanyun Hu, Evan Bell, Guijin Wang, Yu Sun

#### Контекст Обратные задачи в вычислительной импедийности широко распространены во многих областях науки и техники, включая импедийную технику, медицинский импедий и визуальные искусства. Однако эти задачи часто сталкиваются с недостатком доступных и надежных методов для решения, особенно в случае неопределенности и неполноты данных. Развитие моделей на основе размытия (diffusion models) дало новые возможности для решения обратных задач, однако большинство таких моделей требуют полного знания прямого оператора, что ограничивает их применение в реальных условиях, где такая информация часто недоступна. Наша мотивация заключается в разработке метода, который мог бы эффективно работать с недостатком полного прямого оператора, обеспечивая точность и надежность в решении обратных задач. #### Метод Мы предлагаем PRISM (Probabilistic and Robust Inverse Solver with Measurement-Conditioned Diffusion Prior), новую модель, которая интегрирует мощный модель размытия, созданный на основе размытия (diffusion model), с теоретически принципиальным построением постерого значения. Наш подход включает в себя несколько ключевых элементов: 1. **Модель размытия с условием измерений** (measurement-conditioned diffusion model): Этот модель генерирует возможные решения, учитывая доступные измерения. Он позволяет эффективно работать с неполным или неточным данным. 2. **Принципиальное построение постерого значения**: Мы применяем теоретические аргументации для обеспечения надёжности решения, используя вариационный подход и семплирование после постера с условием измерений. 3. **Универсальная архитектура**: Наше решение может быть применено к широкому классу обратных задач, включая разные виды размытий и инверсных задач в вычислительной импедийности. #### Результаты Мы провели эксперименты на задаче безусловной размытой изображений (blind image deblurring), используя стандартные наборы данных. В результате: - **Точность восстановления изображений**: Мы получили высокую точность в восстановлении изображений, существенно превосходящую результаты существующих методов. - **Восстановление ядер размытия**: PRISM также демонстрирует высокую точность в восстановлении ядер размытия, что является важной задачей в обратных задачах. - **Устойчивость к неточности данных**: Мы проверили устойчивость наших решений к неточности или отсутствию частей измерений, и PRISM показал стабильные результаты. #### Значимость PRISM эффективно работает в сценариях, когда полное знание прямого оператора недоступно, что делает его применимым в реальных условиях. Его могут применять в таких областях, как медицинская импедийная, космическая импедийная, и импедийная визуальных искусст

Annotation:

Diffusion models are now commonly used to solve inverse problems in computational imaging. However, most diffusion-based inverse solvers require complete knowledge of the forward operator to be used. In this work, we introduce a novel probabilistic and robust inverse solver with measurement-conditioned diffusion prior (PRISM) to effectively address blind inverse problems. PRISM offers a technical advancement over current methods by incorporating a powerful measurement-conditioned diffusion model...

ID: 2509.16106v1 eess.IV, cs.CV, cs.LG

arXiv PDF

📄 Learning Mechanistic Subtypes of Neurodegeneration with a Physics-Informed Variational Autoencoder Mixture Model

2025-09-20

Авторы:

Sanduni Pinnawala, Annabelle Hartanto, Ivor J. A. Simpson, Peter A. Wijeratne

## Контекст Моделирование механизмов прогрессирования нейродегенеративных заболеваний требует методов, которые могли бы локально и гетерогенно отражать динамику, основываясь на неограниченных, высокомерных данных из нейроиммунинга. Интеграция знаний, основанных на физических уравнениях (PDE), с машинным обучением позволяет повысить интерпретируемость и эффективность по сравнению с традиционными численными методами. Однако работы, интегрирующие PDE с машинным обучением, ограничиваются рассмотрением одного PDE, что ограничивает применимость к заболеваниям, где несколько механизмов приводят к разным подгруппам (или подтипам). Данные проблемы усугубляются в моделях, не учитывающих таковую субтипификацию. Мы предлагаем глубокую генерирующую модель, которая может учитывать несколько динамических моделей, управляемых PDE, в рамках фреймворка вариационного автоэнкодера (VAE). Модель позволяет выделять субтипы с интерпретируемыми латентными переменными, такими как распространение (diffusivity) и реакционные скорости, из нейроиммунинга. Мы проверили нашу модель на синтетических данных и показали, что она может раскрывать механизмы прогрессирования заболевания Альцгеймера, основываясь на данных из позитронной эмиссионной томографии (PET). ## Метод Мы предлагаем **Variational Autoencoder Mixture Model (VAEMM)** с встроенными реакционно-диффузионными PDE. Реакционно-диффузионные PDE логически разделяются на подгруппы для каждого субтипа, чтобы отражать специфику динамики этого субтипа. Модель использует метод реконструкции VAE для выявления латентных переменных, которые описывают эти субтипы. Нашу архитектуру модели укрепляет физический смысл, внедренный в регуляризацию. Мы вводим новую функцию потерь, которая объединяет представление VAE с ограничениями, у imposеd by PDE. Эта регуляризация позволяет обеспечить точность в моделировании динамики и найти подтипы с логически согласованными латентными переменными. Мы использовали бенчмарки, созданные из имитационных данных, для проверки нашей модели. ## Результаты Мы проверили нашу модель на синтетических данных, генерируемых из различных предварительных моделей, включая реакционно-диффузионные PDE. Модель показала способность точно выявить субтипы и их латентные переменные, такие как распространение и реакционные скорости. Мы также применили нашу модель к реальным данным из PET-сканеров для прогрессирования Альцгеймера. Мы выявили подтипы, отражающие различные стили динамики заболевания, и показали, что модель может улучшить интерпретируемость томографических данных. Экспери

Annotation:

Modelling the underlying mechanisms of neurodegenerative diseases demands methods that capture heterogeneous and spatially varying dynamics from sparse, high-dimensional neuroimaging data. Integrating partial differential equation (PDE) based physics knowledge with machine learning provides enhanced interpretability and utility over classic numerical methods. However, current physics-integrated machine learning methods are limited to considering a single PDE, severely limiting their application ...

ID: 2509.15124v1 eess.IV, cs.CV, cs.LG

arXiv PDF

📄 PREDICT-GBM: Platform for Robust Evaluation and Development of Individualized Computational Tumor Models in Glioblastoma

2025-09-19

Авторы:

L. Zimmer, J. Weidner, M. Balcerak, F. Kofler, I. Ezhov, B. Menze, B. Wiestler

#### Контекст Гиброма glioblastoma (GBM) — наиболее распространенная опухоль головного мозга, характеризующаяся высокой инвазивностью и высокой стадией возвращения. Традиционный радиотерапевтический подход, основывающийся на однородных пограничных зонах, не учитывает личные аномалии анатомии и биологии пациента, которые ведут к различным тенденциям возвращения. Чтобы решить эту проблему, были созданы многочисленные компьютерные модели роста GBM, позволяющие предсказать распространение тканей опухоли за пределы видимых радиологических областей и, следовательно, вдохновить на лучший клинический подход. Однако даже на первых этапах, эти модели показали важное потенциальное применение. Однако клиническое применение их ограничено, что необходимо провести трансляционные исследования и клиническую валидацию. Чтобы привнести этот трансляционный пробел и ускорить развитие моделей и проверку их клинической эффективности, мы предлагаем PREDICT-GBM — полностью интегрированную платформу и набор данных для моделирования и оценки роста гибром. #### Метод PREDICT-GBM представляет собой интегрированную платформу, которая содержит методы вычислительного моделирования роста гиброма, чтобы обеспечить широкий спектр моделей и систематическую оценку их производительности. Данные, использованные в рамках этого исследования, включают 255 клинических случаев с полным разделением тканей и картами характеристик тканей. Методы моделирования включают алгоритмы, которые могут предсказать распространение тканей опухоли на основе индивидуальных конкретизаций пациентов. Архитектура платформы обеспечивает гибкость и модульность, позволяя интегрировать различные модели и добавлять новые данные. Это позволяет проводить систематический бенчмаркинг и сравнивать различные модели роста гиброма в объемных клинических данных. #### Результаты В ходе исследования мы выполнили систематическую оценку двух моделей роста гиброма с помощью PREDICT-GBM. Мы сравнили личные планы лучевой терапии, построенные на основе предсказаний моделей, с традиционным методом, где используются равные пограничные зоны. Результаты показали, что персонализированные планы лучевой терапии, основанные на предсказаниях моделей, демонстрируют лучшую покрытие возвращения в двух моделях. Это указывает на то, что моделирование роста гиброма может привести к более точным и эффективным клиническим решениям. #### Значимость Платформа PREDICT-GBM имеет широкие клинические применения, включая улучшение точности предсказания распространения гиброма, оптимизацию лучевой те

Annotation:

Glioblastoma is the most prevalent primary brain malignancy, distinguished by its highly invasive behavior and exceptionally high rates of recurrence. Conventional radiation therapy, which employs uniform treatment margins, fails to account for patient-specific anatomical and biological factors that critically influence tumor cell migration. To address this limitation, numerous computational models of glioblastoma growth have been developed, enabling generation of tumor cell distribution maps ex...

ID: 2509.13360v1 eess.IV, cs.CV, cs.LG, q-bio.QM

arXiv PDF

📄 Enhancing Radiographic Disease Detection with MetaCheX, a Context-Aware Multimodal Model

2025-09-18

Авторы:

Nathan He, Cody Chen

## Контекст Ключевые проблемы в диагностике патологий на основе радиологических исследований черепного мозга включают недостаточное учете метаданных пациента, таких как возраст, пол и другие клинические признаки. Это приводит к ухудшению точности диагностики и неравенству в обслуживании. Несмотря на прогресс в области машинного обучения, существующие модели часто игнорируют эти критические данные, ограничивая их применимость в реальной клинической практике. Метаданные, помимо изображений, могут предоставить важные контекстные сведения, улучшив объективность и точность диагностических выводов. Мотивация заключается в разработке модели, которая будет эффективно интегрировать метаданные и изображения для повышения точности и справедливости диагностических выводов. ## Метод МетаCheX представляет собой контекстно-зависимую модель мультимодального обучения, которая объединяет изображения транскраниальных анализов (CT) и метаданные в единую архитектуру. Изображения обрабатываются с помощью конволюционной нейронной сети (CNN), в то время как метаданные обрабатываются с помощью многослойного перцептрона (MLP). Данные обрабатываются независимо, но объединяются в общий классификатор, который выполняет окончательный вывод. Эта архитектура позволяет модели учитывать оба типа данных, чтобы повысить точность и сделать диагностику более контекстно осмысленной. Модель обучалась на разнообразных данных с разными уровнями сложности для обеспечения широкой общности и робастности. ## Результаты На тестовой выборке CheXpert Plus, MetaCheX показала значительное улучшение в точности диагностики по сравнению с моделями, основанными только на изображениях. Использование метаданных привело к повышению метрики AUROC, что указывает на меньшую алгоритмическую стереотипность и усиленную общность модели. Метаданные также позволили модели лучше адаптироваться к разным клиническим сценариям, снизив риск ошибок в диагностике. Эксперименты показали, что MetaCheX эффективно интегрирует метаданные с изображениями, повышая общую эффективность модели в различных ситуациях диагностики. ## Значимость Результаты MetaCheX могут быть применимы в различных областях медицинского искусственного интеллекта, включая диагностику радиологических заболеваний и улучшение оценки клинических результатов. Мультимодальность модели позволяет улучшить точность диагностики, уменьшить биазы и увеличить ценность данных в клинической практике. Повышение справедливости и общности модели делает ее привлекательной для использования в разнообразных пациентских аудиториях. Эти достижения могу

Annotation:

Existing deep learning models for chest radiology often neglect patient metadata, limiting diagnostic accuracy and fairness. To bridge this gap, we introduce MetaCheX, a novel multimodal framework that integrates chest X-ray images with structured patient metadata to replicate clinical decision-making. Our approach combines a convolutional neural network (CNN) backbone with metadata processed by a multilayer perceptron through a shared classifier. Evaluated on the CheXpert Plus dataset, MetaCheX...

ID: 2509.12287v1 eess.IV, cs.CV, cs.LG

arXiv PDF

📄 Multi-pathology Chest X-ray Classification with Rejection Mechanisms

2025-09-16

Авторы:

Yehudit Aperstein, Amit Tzahar, Alon Gottlib, Tal Verber, Ravit Shagan Damti, Alexander Apartsin

## Контекст Исследование посвящено развитию моделей нейронных сетей для диагностики заболеваний на основе клетчатой интернализации с помощью глубокого обучения. Распространенная проблема в таких задачах состоит в том, что модели выводят недостаточно уверенные прогнозы, что может привести к ошибкам в критичных ситуациях. Это особенно актуально при классификации многомерных данных, таких как клетчатые изображения грудной клетки, где необходимо одновременно выявить несколько различных патологий. Модели, не умеющие отказываться от неуверенных прогнозов, могут выдавать ложные срабатывания, что ухудшает доверие к ним. Основная мотивация — создать модель, умеющую отказываться от неуверенных прогнозов и передавать такие случаи клиническим экспертам, чтобы повысить надежность диагностики. ## Метод Модель основана на архитектуре DenseNet-121, адаптированной для многомерной классификации клетчатых изображений грудной клетки. Для решения проблемы недостаточной уверенности в прогнозах введены два метода отказа от неуверенных прогнозов: 1. **Entropy-based rejection**: если неопределенность прогноза выше определенного порога, модель отказывается от прогноза и передает случай клиническому специалисту. 2. **Confidence interval-based rejection**: если прогноз не попадает в доверительный интервал для класса, модель также отказывается от прогноза. Был разработан процесс калибровки порогов для этих методов с использованием квантильной процедуры. Это позволяет адаптировать пороги к глобальной или класс-специфической ситуации. ## Результаты Исследование проводилось на трех крупных общедоступных датасетах: PadChest, NIH ChestX-ray14 и MIMIC-CXR. Оценки показали, что оба метода отказа от неуверенных прогнозов улучшают точность диагностики и уменьшают число ошибок. **Entropy-based rejection** демонстрирует наивысший **AUC** (Average Area Under Curve) для всех патологий, что делает его наиболее эффективным. Эти результаты подтверждают эффективность и практическую значимость использования отказа от неуверенных прогнозов в медицинских изображениях. ## Значимость Предложенная модель может использоваться в различных клинических ситуациях, где необходима надежная диагностика с минимальным риском ошибки. Основные преимущества: - Увеличение надежности прогноза. - Уменьшение числа ложных срабатываний. - Возможность передачи неуверенных случаев клиническим экспертам. Этот подход может стать важной составляющей в медицинских рабочих процессах, позволяя доверять искусственному интеллекту в критичных ситуациях. ## Выводы Предложенный подход доказал свою эффективность в улучшении диагностической точности и надежности моделей для клетчатой инт

Annotation:

Overconfidence in deep learning models poses a significant risk in high-stakes medical imaging tasks, particularly in multi-label classification of chest X-rays, where multiple co-occurring pathologies must be detected simultaneously. This study introduces an uncertainty-aware framework for chest X-ray diagnosis based on a DenseNet-121 backbone, enhanced with two selective prediction mechanisms: entropy-based rejection and confidence interval-based rejection. Both methods enable the model to abs...

ID: 2509.10348v1 eess.IV, cs.CV, cs.LG

arXiv PDF

📄 Enhancing Privacy Preservation and Reducing Analysis Time with Federated Transfer Learning in Digital Twins-based Computed Tomography Scan Analysis

2025-09-11

Авторы:

Avais Jan, Qasim Zia, Murray Patterson

## Контекст В последние годы технология Digital Twin (DT) набирает всё большую популярность в медицине, особенно в области диагностики на основе изображений. Одним из ключевых приложений является анализ компьютерно-томографических (CT) сканов. Однако эта область сталкивается с рядом проблем, такими как высокий порог приватности данных, нехватка вычислительных ресурсов и разнообразие данных. Дополнительно, традиционные методы машинного обучения часто сталкиваются с проблемами, связанными с независимостью и идентичностью распределения данных (IID). Эти ограничения приводят к низкой точности моделей, предсказаниям, нежелательному влиянию на решения в области медицины и, в конечном итоге, к неэффективности в медицинской практике. Необходимо развитие методов, которые могут улучшить точность, защищать конфиденциальность и эффективно использовать ресурсы. Federated Transfer Learning (FTL) предлагается как новая модель для решения этих проблем в контексте DT-based CT scan analysis. ## Метод Federated Transfer Learning (FTL) — это новая архитектура, которая использует предварительно обученные модели и знания, передаваемые между узлами в федеративной сети. В этой работе, мы применяем FTL к анализу CT-сканов в контексте Digital Twin-enabled systems. Методология FTL включает в себя несколько этапов: 1. **Начальная обученная модель**: Мы используем предварительно обученные модели, которые способны эффективно обрабатывать разные типы данных. 2. **Федеративное обучение**: Узлы (например, Digital Twin-enabled CT scanners) обмениваются знаниями, чтобы улучшить модели, не раскрывая личные данные. 3. **Трансфер знаний**: Модели, обученные на одном узле, могут быть переданы другим узлам для улучшения общей точности. 4. **Приватность и безопасность**: Мы используем технологии хэширования и анонимности, чтобы защитить идентичность пациентов и сделать процесс безопасным. Технически, FTL использует алгоритмы, подобные Federated Averaging, но с дополнительными механизмами для улучшения точности и эффективности. ## Результаты Мы проводили эксперименты на независимой нейрологической CT-данных, чтобы оценить точность, трансфер знаний и время вывода. Мы сравнили FTL с традиционными методами, такими как Federated Learning (FL) и Clustered Federated Learning (CFL). Наши результаты показали, что FTL показывает лучшую точность, при этом уменьшая время обучения и улучшая понимание данных. Мы использовали метрики, такие как precision, recall, F1-score и confusion matrix. Также, мы оценили время вывода, что позволило нам понять, как FTL решает проблему реального времени в медицинской практике. ## Значимость FTL предлагает ряд преимуществ в различных сферах. В первую очередь, он обеспе

Annotation:

The application of Digital Twin (DT) technology and Federated Learning (FL) has great potential to change the field of biomedical image analysis, particularly for Computed Tomography (CT) scans. This paper presents Federated Transfer Learning (FTL) as a new Digital Twin-based CT scan analysis paradigm. FTL uses pre-trained models and knowledge transfer between peer nodes to solve problems such as data privacy, limited computing resources, and data heterogeneity. The proposed framework allows rea...

ID: 2509.08018v1 eess.IV, cs.CV, cs.LG

arXiv PDF

📄 Impact of Labeling Inaccuracy and Image Noise on Tooth Segmentation in Panoramic Radiographs using Federated, Centralized and Local Learning

2025-09-10

Авторы:

Johan Andreas Balle Rubak, Khuram Naveed, Sanyam Jain, Lukas Esterle, Alexandros Iosifidis, Ruben Pauwels

#### Контекст Диагностика и лечение болезней зубов и десен требуют точного анализа радиографических изображений. Однако существуют проблемы, такие как несогласованность в летописи и помехи в изображениях, которые могут снизить точность алгоритмов машинного обучения. Другой важный аспект — защита конфиденциальности пациента. Федеративное обучение (FL) предлагается как решение этих проблем, позволяя обучать модели без прямого доступа к данным. #### Метод В исследовании применялась модель Attention U-Net для сегментации зубов на радиографиях панорамы. Данные собрались с шести медицинских учреждений. Исследовались 4 сценария повреждения данных: 1. Несогласованность меток (для проверки точности сегментации при изменении или отсутствии меток). 2. Несоответствие качества изображений (добавление шума Гаусса). 3. Исключение клиента с поврежденными данными. 4. Базовый сценарий без помех. FL был реализован с использованием Flower AI Framework. Метрики оценивались на тестовом комплекте, включая Dice, IoU, HD, HD95 и ASSD. #### Результаты - **Базовый сценарий:** FL показал высокую точность в сегментации (Dice: 0.94889, ASSD: 1.33229), почти на уровне CL (Dice: 0.94706, ASSD: 1.37074), но выше LL. - **Несогласованность меток:** FL поддержал высокую точность (Dice: 0.94884, ASSD: 1.46487), при этом CL (Dice: 0.94183, ASSD: 1.75738) и LL (Dice: 0.93003-0.94026, ASSD: 1.51910-2.11462) показали заметно более низкие показатели. - **Шум в изображении:** FL достиг Dice 0.94853 (ASSD: 1.31088), CL — 0.94787 (ASSD: 1.36131), LL — 0.93179-0.94026 (ASSD: 1.51910-1.77350). - **Исключение клиента с поврежденными данными:** FL показал лучший результат (Dice: 0.94790, ASSD: 1.33113) по сравнению с CL (Dice: 0.94550, ASSD: 1.39318). #### Значимость FL доказал свою эффективность в сравнении с CL и LL во всех сценариях. Он обеспечивает строгую защиту конфиденциальных данных, обучая модели с учетом разнородных источников данных. Также FL имеет практическое значение для реализации ска\-ля\-ру\-емых AI-решений в стоматологии. #### Выводы FL показал себя эффективнее CL и LL в сценариях с поврежденными данными. Траектории потерь по клиентам помогают обнаруживать аномалии в данных. Этот подход является перспективным для расширения применения AI в стоматологии, сохранив при этом конфиденциальность данных. Будущие исследования будут фокусироваться на расширении FL на другие типы данных и улучшении методик обнаружения оши

Annotation:

Objectives: Federated learning (FL) may mitigate privacy constraints, heterogeneous data quality, and inconsistent labeling in dental diagnostic AI. We compared FL with centralized (CL) and local learning (LL) for tooth segmentation in panoramic radiographs across multiple data corruption scenarios. Methods: An Attention U-Net was trained on 2066 radiographs from six institutions across four settings: baseline (unaltered data); label manipulation (dilated/missing annotations); image-quality mani...

ID: 2509.06553v1 eess.IV, cs.CV, cs.LG

arXiv PDF

📄 Inferring the Graph Structure of Images for Graph Neural Networks

2025-09-09

Авторы:

Mayur S Gowda, John Shi, Augusto Santos, José M. F. Moura

#### Контекст Графовые нейронные сети (GNN) представляют собой мощный инструмент для обработки и анализа графовых данных. Одним из ключевых приложений GNN является классификация изображений, где изображения представляются в виде графов. Обычно изображения преобразуются в графы, где узлы соответствуют пикселям, а ребра — связям между соседними пикселями по вертикали и горизонтали. Несмотря на эффективность такого представления, оно может не совсем отражать структурные отношения в изображении. Это приводит к потере информации и уменьшению точности GNN в классификации. В данной работе рассматривается поиск альтернативных структур графов для представления изображений, чтобы улучшить точность GNN в задачах классификации. #### Метод Мы предлагаем новую методологию для построения графов, которая использует корреляционные отношения между пикселями в изображении. Для каждого изображения из датасета MNIST и Fashion-MNIST проводится расчет корреляции по строкам, столбцам и произведению этих корреляций. Это позволяет построить альтернативные графы, где узлы соответствуют пикселям, а ребра — связями, отражающими корреляционные отношения. Эти графы представляются в виде входных данных для GNN. Мы также сравниваем результаты с классическим подходом, где изображения представляются в виде грид-графов или методами суперпикселей. #### Результаты Использование альтернативных графов, построенных на основе корреляционных отношений, позволило улучшить точность классификации GNN в задачах, основанных на MNIST и Fashion-MNIST. Эксперименты показали, что графы, построенные на основе продуктных корреляций, дают наибольшую дополнительную информацию и приводят к повышению точности классификации по сравнению с традиционными методами. Эти результаты указывают на важность использования более точных представлений графов для улучшения GNN. #### Значимость Наш подход может быть применен в различных областях, где изображения представляются в виде графов, таких как анализ изображений в медицине, автомобилестроении и робототехнике. Альтернативные представления графов обеспечивают более точное отражение структурных отношений в изображении, что приводит к улучшению точности классификации и общей эффективности GNN. Это делает нашу работу важной для развития графовых методов в обработке изображений. #### Выводы Мы установили, что альтернативные графовые представления, основанные на корреляционных отношениях, могут значительно повысить эффективность GNN в задачах классификации изображений. Будущие исследования будут сконцентрированы на расширении этого под

Annotation:

Image datasets such as MNIST are a key benchmark for testing Graph Neural Network (GNN) architectures. The images are traditionally represented as a grid graph with each node representing a pixel and edges connecting neighboring pixels (vertically and horizontally). The graph signal is the values (intensities) of each pixel in the image. The graphs are commonly used as input to graph neural networks (e.g., Graph Convolutional Neural Networks (Graph CNNs) [1, 2], Graph Attention Networks (GAT) [3...

ID: 2509.04677v1 eess.IV, cs.CV, cs.LG, eess.SP

arXiv PDF

1
2
3
4
5

Показано 21 - 30 из 44 записей