Text Embedded Swin-UMamba for DeepLesion Segmentation

2508.06453v1 cs.CV, cs.AI 2025-08-12

Авторы:

Ruida Cheng, Tejas Sudharshan Mathai, Pritam Mukherjee, Benjamin Hou, Qingqing Zhu, Zhiyong Lu, Matthew McAuliffe, Ronald M. Summers

Резюме на русском

## Контекст Segmentation of lesions on CT scans plays a ключевую роль в клинической оценке прогресса хронических заболеваний, таких как лимфома. Однако существуют сложности в автоматизации этого процесса, включая неоднородность признаков и отсутствие доступных методов, которые могли бы использовать описательные текстовые поля в радиологических отчетах. Недостаток эффективных алгоритмов, которые могли бы объединять изображения и текстовые данные, становится ограничением для развития интеллектуальных систем в этой области. ## Метод Мы предлагаем Text-Swin-UMamba, модель, которая интегрирует текстовые описания из радиологических отчетов с изображениями CT в процессе сегментации лезион. Использовалась архитектура Swin-UMamba, которая была адаптирована для учета текстовых признаков. Для обучения и тестирования был использован общедоступный DeepLesion датасет, в котором включены текстовые описания находок. Модель работает путем совмещения изображений и текстовых признаков в единой иерархической архитектуре, которая учитывает влияние текста на изображения. ## Результаты Проведенные эксперименты показали, что Text-Swin-UMamba эффективно сегментирует лезион, достигая Dice Score 82% и Hausdorff distance 6.58 пикселей. Этот результат превосходит лучшие достижения предыдущих моделей: LanGuideMedSeg (+37%, p < 0.001), xLSTM-UNet (+1.74%) и nnUNet (+0.22%). Это указывает на более высокую точность модели в определении границ лезионов, особенно в сложных случаях. Данные и код доступны на GitHub. ## Значимость Наша модель может повысить точность сегментации лезионов в клинических задачах, помогая в автоматизированной оценке лезионов на CT. Она имеет применение в технике медицинской интеллектуальной системы, которая могла бы улучшить клинические результаты и эффективность ухода. ## Выводы Мы установили, что интеграция текстовых данных в модели сегментации лезионов может значительно улучшить точность. Наша работа открывает новые трудности в создании более интеллектуальных моделей сегментации, в которых могут использоваться текстовые и изображений вместе. Будущие работы будут сконцентрированы на расширении модели для других видов данных и клинических задач.

Abstract

Segmentation of lesions on CT enables automatic measurement for clinical assessment of chronic diseases (e.g., lymphoma). Integrating large language models (LLMs) into the lesion segmentation workflow offers the potential to combine imaging features with descriptions of lesion characteristics from the radiology reports. In this study, we investigate the feasibility of integrating text into the Swin-UMamba architecture for the task of lesion segmentation. The publicly available ULS23 DeepLesion dataset was used along with short-form descriptions of the findings from the reports. On the test dataset, a high Dice Score of 82% and low Hausdorff distance of 6.58 (pixels) was obtained for lesion segmentation. The proposed Text-Swin-UMamba model outperformed prior approaches: 37% improvement over the LLM-driven LanGuideMedSeg model (p < 0.001),and surpassed the purely image-based xLSTM-UNet and nnUNet models by 1.74% and 0.22%, respectively. The dataset and code can be accessed at https://github.com/ruida/LLM-Swin-UMamba

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Text Embedded Swin-UMamba for DeepLesion Segmentation

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Dual-Stream Spectral Decoupling Distillation for Remote Sensing Object Detection

Explainable Parkinsons Disease Gait Recognition Using Multimodal RGB-D Fusion an...

GuidNoise: Single-Pair Guided Diffusion for Generalized Noise Synthesis

PhyVLLM: Physics-Guided Video Language Model with Motion-Appearance Disentanglem...

Detection of Intoxicated Individuals from Facial Video Sequences via a Recurrent...

Навигация