RL-U$^2$Net: A Dual-Branch UNet with Reinforcement Learning-Assisted Multimodal Feature Fusion for Accurate 3D Whole-Heart Segmentation
2508.02557v1
eess.IV, cs.CV
2025-08-09
Авторы:
Jierui Qu, Jianchun Zhao
Резюме на русском
Целью данной работы является развитие эффективного метода для точной трехмерной сегментации всего сердца, используя многомодальные данные, включающие компьютерную томографию (CT) и магнитно-резонансную импульсную интервьюю (MRI). Основные проблемы в существующих методах заключаются в серьезных проблемах консистентности между модальностями, жестких статических стратегиях слияния признаков и разделенных процессов анализа признаков и сегментации. Разработанная RL-U$^2$Net предлагает двойное U-образное сетевое архитектура, использующее вспомогательный модуль RL-XAlign c кросс-модальным вниманием и алгоритмом на основе управляемого обучения, чтобы добиться более точной и эффективной интеграции признаков. Работа показала, что RL-U$^2$Net достигает высокой точности (Dice = 93.1% для CT и Dice = 87.0% для MRI), что демонстрирует его преимущества перед современными методами в этой области.
Abstract
Accurate whole-heart segmentation is a critical component in the precise
diagnosis and interventional planning of cardiovascular diseases. Integrating
complementary information from modalities such as computed tomography (CT) and
magnetic resonance imaging (MRI) can significantly enhance segmentation
accuracy and robustness. However, existing multi-modal segmentation methods
face several limitations: severe spatial inconsistency between modalities
hinders effective feature fusion; fusion strategies are often static and lack
adaptability; and the processes of feature alignment and segmentation are
decoupled and inefficient. To address these challenges, we propose a
dual-branch U-Net architecture enhanced by reinforcement learning for feature
alignment, termed RL-U$^2$Net, designed for precise and efficient multi-modal
3D whole-heart segmentation. The model employs a dual-branch U-shaped network
to process CT and MRI patches in parallel, and introduces a novel RL-XAlign
module between the encoders. The module employs a cross-modal attention
mechanism to capture semantic correspondences between modalities and a
reinforcement-learning agent learns an optimal rotation strategy that
consistently aligns anatomical pose and texture features. The aligned features
are then reconstructed through their respective decoders. Finally, an
ensemble-learning-based decision module integrates the predictions from
individual patches to produce the final segmentation result. Experimental
results on the publicly available MM-WHS 2017 dataset demonstrate that the
proposed RL-U$^2$Net outperforms existing state-of-the-art methods, achieving
Dice coefficients of 93.1% on CT and 87.0% on MRI, thereby validating the
effectiveness and superiority of the proposed approach.
Ссылки и действия
Дополнительные ресурсы: