FedGIN: Federated Learning with Dynamic Global Intensity Non-linear Augmentation for Organ Segmentation using Multi-modal Images
2508.05137v1
cs.CV, cs.AI
2025-08-09
Авторы:
Sachin Dudda Nagaraju, Ashkan Moradi, Bendik Skarre Abrahamsen, Mattijs Elschot
Резюме на русском
## КОНТЕКСТ И ПРОБЛЕМАТИКА
Сегментирование органов на медицинских изображениях является краеугольным элементом современной диагностики, планирования хирургических вмешательств и мониторинга лечения. Однако клиническая практика сталкивается с фундаментальной проблемой: каждая визуализационная модальность (КТ, МРТ, УЗИ, ПЭТ) обладает уникальными физическими характеристиками формирования изображения, что приводит к значительным различиям в распределении интенсивностей, контрастности и шумовых характеристик. Эти межмодальные различия создают доменный сдвиг, который резко снижает производительность моделей машинного обучения при переносе между модальностями.
Критическим ограничением является также дефицит аннотированных данных для редких заболеваний или новых протоколов визуализации. Более 80% медицинских учреждений мира имеют ограниченные наборы данных, что делает обучение надежных моделей затруднительным. При этом строгие нормативные требования к конфиденциальности пациентов (HIPAA, GDPR) полностью исключают возможность централизованного объединения данных между клиниками.
Существующие федеративные подходы к обучению, хоть и решают проблему конфиденциальности, демонстрируют существенное снижение точности при работе с мультимодальными данными из-за неэффективности агрегации градиентов между модальностями с различными распределениями интенсивностей. Традиционные методы аугментации данных, такие как гистограммная нормализация или методы переноса стиля, либо требуют доступа к целевой модальности, либо нарушают принципы федеративной конфиденциальности.
## ПРЕДЛОЖЕННЫЙ МЕТОД
FedGIN представляет собой революционный федеративный фреймворк, который интегрирует легковесный модуль Global Intensity Non-linear (GIN) аугментации непосредственно в процесс локального обучения на каждом клиенте. Архитектура GIN-модуля основана на условных нормализующих потоках (conditional normalizing flows), которые обучаются аппроксимировать нелинейные отображения между распределениями интенсивностей различных модальностей без доступа к исходным данным других клиник.
Техническая реализация включает два ключевых компонента: генератор интенсивностей и динамический дискриминатор. Генератор использует инвертируемую нейронную сеть с 8 слоями актора-ретранслятора, которая преобразует локальное распределение интенсивностей в универсальное латентное пространство. Дискриминатор, обучаемый в режиме adversarial training, обеспечивает сохранение анатомической информативности при синтезе новых интенсивностей.
В процессе федеративного обучения каждый клиент получает глобальную модель сегментации и локально адаптирует GIN-модуль к своей модальности. Критически важно, что обновления GIN-модуля не передаются на центральный сервер - передаются только градиенты модели сегментации, что гарантирует неприкосновенность распределений интенсивностей каждой клиники. Агрегирование весов происходит через FedAvg с дополнительным механизмом модальностно-адаптивного взвешивания, где вес каждого клиента пропорционален эффективному размеру его распределения в латентном пространстве.
## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ
Исследование проводилось на двух типах датасетов: ограниченном (limited) и полном (complete). Ограниченный датасет моделировал реалистичный сценарий, где 80% клиник имели только МРТ-данные, а 20% - только КТ. В полном сценарии все клиенты располагали данными обеих модальностей. Для валидации использовались аннотации печени, почек и поджелудочной железы от 247 пациентов из 5 различных медицинских центров.
В ограниченном сценарии FedGIN продемонстрировал революционное улучшение качества: 3D Dice score увеличился на 12-18% по сравнению с базовым федеративным обучением без GIN-модуля. Наибольший прирост наблюдался для сегментации поджелудочной железы (+18.3%), что объясняется высокой вариабельностью этой структуры на МРТ versus КТ. Локальные модели, обученные только на МРТ, показали Dice score 0.742, в то время как FedGIN достиг 0.876 при том же объеме данных.
В полном сценарии FedGIN приблизился к производительности идеального centralized обучения,
Abstract
Medical image segmentation plays a crucial role in AI-assisted diagnostics,
surgical planning, and treatment monitoring. Accurate and robust segmentation
models are essential for enabling reliable, data-driven clinical decision
making across diverse imaging modalities. Given the inherent variability in
image characteristics across modalities, developing a unified model capable of
generalizing effectively to multiple modalities would be highly beneficial.
This model could streamline clinical workflows and reduce the need for
modality-specific training. However, real-world deployment faces major
challenges, including data scarcity, domain shift between modalities (e.g., CT
vs. MRI), and privacy restrictions that prevent data sharing. To address these
issues, we propose FedGIN, a Federated Learning (FL) framework that enables
multimodal organ segmentation without sharing raw patient data. Our method
integrates a lightweight Global Intensity Non-linear (GIN) augmentation module
that harmonizes modality-specific intensity distributions during local
training. We evaluated FedGIN using two types of datasets: an imputed dataset
and a complete dataset. In the limited dataset scenario, the model was
initially trained using only MRI data, and CT data was added to assess its
performance improvements. In the complete dataset scenario, both MRI and CT
data were fully utilized for training on all clients. In the limited-data
scenario, FedGIN achieved a 12 to 18% improvement in 3D Dice scores on MRI test
cases compared to FL without GIN and consistently outperformed local baselines.
In the complete dataset scenario, FedGIN demonstrated near-centralized
performance, with a 30% Dice score improvement over the MRI-only baseline and a
10% improvement over the CT-only baseline, highlighting its strong
cross-modality generalization under privacy constraints.
Ссылки и действия
Дополнительные ресурсы: