Impact of Labeling Inaccuracy and Image Noise on Tooth Segmentation in Panoramic Radiographs using Federated, Centralized and Local Learning

2509.06553v1 eess.IV, cs.CV, cs.LG 2025-09-10
Авторы:

Johan Andreas Balle Rubak, Khuram Naveed, Sanyam Jain, Lukas Esterle, Alexandros Iosifidis, Ruben Pauwels

Резюме на русском

#### Контекст Диагностика и лечение болезней зубов и десен требуют точного анализа радиографических изображений. Однако существуют проблемы, такие как несогласованность в летописи и помехи в изображениях, которые могут снизить точность алгоритмов машинного обучения. Другой важный аспект — защита конфиденциальности пациента. Федеративное обучение (FL) предлагается как решение этих проблем, позволяя обучать модели без прямого доступа к данным. #### Метод В исследовании применялась модель Attention U-Net для сегментации зубов на радиографиях панорамы. Данные собрались с шести медицинских учреждений. Исследовались 4 сценария повреждения данных: 1. Несогласованность меток (для проверки точности сегментации при изменении или отсутствии меток). 2. Несоответствие качества изображений (добавление шума Гаусса). 3. Исключение клиента с поврежденными данными. 4. Базовый сценарий без помех. FL был реализован с использованием Flower AI Framework. Метрики оценивались на тестовом комплекте, включая Dice, IoU, HD, HD95 и ASSD. #### Результаты - **Базовый сценарий:** FL показал высокую точность в сегментации (Dice: 0.94889, ASSD: 1.33229), почти на уровне CL (Dice: 0.94706, ASSD: 1.37074), но выше LL. - **Несогласованность меток:** FL поддержал высокую точность (Dice: 0.94884, ASSD: 1.46487), при этом CL (Dice: 0.94183, ASSD: 1.75738) и LL (Dice: 0.93003-0.94026, ASSD: 1.51910-2.11462) показали заметно более низкие показатели. - **Шум в изображении:** FL достиг Dice 0.94853 (ASSD: 1.31088), CL — 0.94787 (ASSD: 1.36131), LL — 0.93179-0.94026 (ASSD: 1.51910-1.77350). - **Исключение клиента с поврежденными данными:** FL показал лучший результат (Dice: 0.94790, ASSD: 1.33113) по сравнению с CL (Dice: 0.94550, ASSD: 1.39318). #### Значимость FL доказал свою эффективность в сравнении с CL и LL во всех сценариях. Он обеспечивает строгую защиту конфиденциальных данных, обучая модели с учетом разнородных источников данных. Также FL имеет практическое значение для реализации ска\-ля\-ру\-емых AI-решений в стоматологии. #### Выводы FL показал себя эффективнее CL и LL в сценариях с поврежденными данными. Траектории потерь по клиентам помогают обнаруживать аномалии в данных. Этот подход является перспективным для расширения применения AI в стоматологии, сохранив при этом конфиденциальность данных. Будущие исследования будут фокусироваться на расширении FL на другие типы данных и улучшении методик обнаружения оши

Abstract

Objectives: Federated learning (FL) may mitigate privacy constraints, heterogeneous data quality, and inconsistent labeling in dental diagnostic AI. We compared FL with centralized (CL) and local learning (LL) for tooth segmentation in panoramic radiographs across multiple data corruption scenarios. Methods: An Attention U-Net was trained on 2066 radiographs from six institutions across four settings: baseline (unaltered data); label manipulation (dilated/missing annotations); image-quality manipulation (additive Gaussian noise); and exclusion of a faulty client with corrupted data. FL was implemented via the Flower AI framework. Per-client training- and validation-loss trajectories were monitored for anomaly detection and a set of metrics (Dice, IoU, HD, HD95 and ASSD) was evaluated on a hold-out test set. From these metrics significance results were reported through Wilcoxon signed-rank test. CL and LL served as comparators. Results: Baseline: FL achieved a median Dice of 0.94889 (ASSD: 1.33229), slightly better than CL at 0.94706 (ASSD: 1.37074) and LL at 0.93557-0.94026 (ASSD: 1.51910-1.69777). Label manipulation: FL maintained the best median Dice score at 0.94884 (ASSD: 1.46487) versus CL's 0.94183 (ASSD: 1.75738) and LL's 0.93003-0.94026 (ASSD: 1.51910-2.11462). Image noise: FL led with Dice at 0.94853 (ASSD: 1.31088); CL scored 0.94787 (ASSD: 1.36131); LL ranged from 0.93179-0.94026 (ASSD: 1.51910-1.77350). Faulty-client exclusion: FL reached Dice at 0.94790 (ASSD: 1.33113) better than CL's 0.94550 (ASSD: 1.39318). Loss-curve monitoring reliably flagged the corrupted site. Conclusions: FL matches or exceeds CL and outperforms LL across corruption scenarios while preserving privacy. Per-client loss trajectories provide an effective anomaly-detection mechanism and support FL as a practical, privacy-preserving approach for scalable clinical AI deployment.

Ссылки и действия