Impact of Labeling Inaccuracy and Image Noise on Tooth Segmentation in Panoramic Radiographs using Federated, Centralized and Local Learning
2509.06553v1
eess.IV, cs.CV, cs.LG
2025-09-10
Авторы:
Johan Andreas Balle Rubak, Khuram Naveed, Sanyam Jain, Lukas Esterle, Alexandros Iosifidis, Ruben Pauwels
Резюме на русском
#### Контекст
Диагностика и лечение болезней зубов и десен требуют точного анализа радиографических изображений. Однако существуют проблемы, такие как несогласованность в летописи и помехи в изображениях, которые могут снизить точность алгоритмов машинного обучения. Другой важный аспект — защита конфиденциальности пациента. Федеративное обучение (FL) предлагается как решение этих проблем, позволяя обучать модели без прямого доступа к данным.
#### Метод
В исследовании применялась модель Attention U-Net для сегментации зубов на радиографиях панорамы. Данные собрались с шести медицинских учреждений. Исследовались 4 сценария повреждения данных:
1. Несогласованность меток (для проверки точности сегментации при изменении или отсутствии меток).
2. Несоответствие качества изображений (добавление шума Гаусса).
3. Исключение клиента с поврежденными данными.
4. Базовый сценарий без помех.
FL был реализован с использованием Flower AI Framework. Метрики оценивались на тестовом комплекте, включая Dice, IoU, HD, HD95 и ASSD.
#### Результаты
- **Базовый сценарий:** FL показал высокую точность в сегментации (Dice: 0.94889, ASSD: 1.33229), почти на уровне CL (Dice: 0.94706, ASSD: 1.37074), но выше LL.
- **Несогласованность меток:** FL поддержал высокую точность (Dice: 0.94884, ASSD: 1.46487), при этом CL (Dice: 0.94183, ASSD: 1.75738) и LL (Dice: 0.93003-0.94026, ASSD: 1.51910-2.11462) показали заметно более низкие показатели.
- **Шум в изображении:** FL достиг Dice 0.94853 (ASSD: 1.31088), CL — 0.94787 (ASSD: 1.36131), LL — 0.93179-0.94026 (ASSD: 1.51910-1.77350).
- **Исключение клиента с поврежденными данными:** FL показал лучший результат (Dice: 0.94790, ASSD: 1.33113) по сравнению с CL (Dice: 0.94550, ASSD: 1.39318).
#### Значимость
FL доказал свою эффективность в сравнении с CL и LL во всех сценариях. Он обеспечивает строгую защиту конфиденциальных данных, обучая модели с учетом разнородных источников данных. Также FL имеет практическое значение для реализации ска\-ля\-ру\-емых AI-решений в стоматологии.
#### Выводы
FL показал себя эффективнее CL и LL в сценариях с поврежденными данными. Траектории потерь по клиентам помогают обнаруживать аномалии в данных. Этот подход является перспективным для расширения применения AI в стоматологии, сохранив при этом конфиденциальность данных. Будущие исследования будут фокусироваться на расширении FL на другие типы данных и улучшении методик обнаружения оши
Abstract
Objectives: Federated learning (FL) may mitigate privacy constraints,
heterogeneous data quality, and inconsistent labeling in dental diagnostic AI.
We compared FL with centralized (CL) and local learning (LL) for tooth
segmentation in panoramic radiographs across multiple data corruption
scenarios. Methods: An Attention U-Net was trained on 2066 radiographs from six
institutions across four settings: baseline (unaltered data); label
manipulation (dilated/missing annotations); image-quality manipulation
(additive Gaussian noise); and exclusion of a faulty client with corrupted
data. FL was implemented via the Flower AI framework. Per-client training- and
validation-loss trajectories were monitored for anomaly detection and a set of
metrics (Dice, IoU, HD, HD95 and ASSD) was evaluated on a hold-out test set.
From these metrics significance results were reported through Wilcoxon
signed-rank test. CL and LL served as comparators. Results: Baseline: FL
achieved a median Dice of 0.94889 (ASSD: 1.33229), slightly better than CL at
0.94706 (ASSD: 1.37074) and LL at 0.93557-0.94026 (ASSD: 1.51910-1.69777).
Label manipulation: FL maintained the best median Dice score at 0.94884 (ASSD:
1.46487) versus CL's 0.94183 (ASSD: 1.75738) and LL's 0.93003-0.94026 (ASSD:
1.51910-2.11462). Image noise: FL led with Dice at 0.94853 (ASSD: 1.31088); CL
scored 0.94787 (ASSD: 1.36131); LL ranged from 0.93179-0.94026 (ASSD:
1.51910-1.77350). Faulty-client exclusion: FL reached Dice at 0.94790 (ASSD:
1.33113) better than CL's 0.94550 (ASSD: 1.39318). Loss-curve monitoring
reliably flagged the corrupted site. Conclusions: FL matches or exceeds CL and
outperforms LL across corruption scenarios while preserving privacy. Per-client
loss trajectories provide an effective anomaly-detection mechanism and support
FL as a practical, privacy-preserving approach for scalable clinical AI
deployment.
Ссылки и действия
Дополнительные ресурсы: