Text Embedded Swin-UMamba for DeepLesion Segmentation
2508.06453v1
cs.CV, cs.AI
2025-08-12
Авторы:
Ruida Cheng, Tejas Sudharshan Mathai, Pritam Mukherjee, Benjamin Hou, Qingqing Zhu, Zhiyong Lu, Matthew McAuliffe, Ronald M. Summers
Резюме на русском
## Контекст
Segmentation of lesions on CT scans plays a ключевую роль в клинической оценке прогресса хронических заболеваний, таких как лимфома. Однако существуют сложности в автоматизации этого процесса, включая неоднородность признаков и отсутствие доступных методов, которые могли бы использовать описательные текстовые поля в радиологических отчетах. Недостаток эффективных алгоритмов, которые могли бы объединять изображения и текстовые данные, становится ограничением для развития интеллектуальных систем в этой области.
## Метод
Мы предлагаем Text-Swin-UMamba, модель, которая интегрирует текстовые описания из радиологических отчетов с изображениями CT в процессе сегментации лезион. Использовалась архитектура Swin-UMamba, которая была адаптирована для учета текстовых признаков. Для обучения и тестирования был использован общедоступный DeepLesion датасет, в котором включены текстовые описания находок. Модель работает путем совмещения изображений и текстовых признаков в единой иерархической архитектуре, которая учитывает влияние текста на изображения.
## Результаты
Проведенные эксперименты показали, что Text-Swin-UMamba эффективно сегментирует лезион, достигая Dice Score 82% и Hausdorff distance 6.58 пикселей. Этот результат превосходит лучшие достижения предыдущих моделей: LanGuideMedSeg (+37%, p < 0.001), xLSTM-UNet (+1.74%) и nnUNet (+0.22%). Это указывает на более высокую точность модели в определении границ лезионов, особенно в сложных случаях. Данные и код доступны на GitHub.
## Значимость
Наша модель может повысить точность сегментации лезионов в клинических задачах, помогая в автоматизированной оценке лезионов на CT. Она имеет применение в технике медицинской интеллектуальной системы, которая могла бы улучшить клинические результаты и эффективность ухода.
## Выводы
Мы установили, что интеграция текстовых данных в модели сегментации лезионов может значительно улучшить точность. Наша работа открывает новые трудности в создании более интеллектуальных моделей сегментации, в которых могут использоваться текстовые и изображений вместе. Будущие работы будут сконцентрированы на расширении модели для других видов данных и клинических задач.
Abstract
Segmentation of lesions on CT enables automatic measurement for clinical
assessment of chronic diseases (e.g., lymphoma). Integrating large language
models (LLMs) into the lesion segmentation workflow offers the potential to
combine imaging features with descriptions of lesion characteristics from the
radiology reports. In this study, we investigate the feasibility of integrating
text into the Swin-UMamba architecture for the task of lesion segmentation. The
publicly available ULS23 DeepLesion dataset was used along with short-form
descriptions of the findings from the reports. On the test dataset, a high Dice
Score of 82% and low Hausdorff distance of 6.58 (pixels) was obtained for
lesion segmentation. The proposed Text-Swin-UMamba model outperformed prior
approaches: 37% improvement over the LLM-driven LanGuideMedSeg model (p <
0.001),and surpassed the purely image-based xLSTM-UNet and nnUNet models by
1.74% and 0.22%, respectively. The dataset and code can be accessed at
https://github.com/ruida/LLM-Swin-UMamba
Ссылки и действия
Дополнительные ресурсы: