NEARL-CLIP: Interacted Query Adaptation with Orthogonal Regularization for Medical Vision-Language Understanding
2508.04101v1
cs.CV
2025-08-09
Авторы:
Zelin Peng, Yichen Zhao, Yu Huang, Piao Yang, Feilong Tang, Zhengqin Xu, Xiaokang Yang, Wei Shen
Резюме на русском
**Резюме**
Ограниченные медицинские данные с аннотациями становятся ограничением для развития моделей, ориентированных на клиническое применение. Затруднения возникают из-за большого разрыва домена, который существует между общими vision-language models (VLMs) и задачами медицинского визуального понимания. Несмотря на то, что существующие методы, такие как prompt learning и one-way interaction, пытаются решить эту проблему, они часто приводят к недостаточной интеграции модолей и недостаточной эффективности.
В этой работе предлагается NEARL-CLIP — новый подход, основанный на cross-modality interaction, который включает два новых компонента. Вначале Unified Synergy Embedding Transformer (USEformer) динамически генерирует cross-modality queries для более глубокого взаимодействия между модальностями, что обеспечивает усиление медицинского знания. Затем, Orthogonal Cross-Attention Adapter (OCA) разделяет новый кластер знаний на два независимых компонента: новую информацию и дополнительные изменения. Это позволяет OCA более эффективно приобретать наборы знаний.
В результате, NEARL-CLIP получает мощные результаты с только 1.46M learnable параметрами, демонстрируя сильный потенциал для решения проблемы domain gap в медицинской области.
Abstract
Computer-aided medical image analysis is crucial for disease diagnosis and
treatment planning, yet limited annotated datasets restrict medical-specific
model development. While vision-language models (VLMs) like CLIP offer strong
generalization capabilities, their direct application to medical imaging
analysis is impeded by a significant domain gap. Existing approaches to bridge
this gap, including prompt learning and one-way modality interaction
techniques, typically focus on introducing domain knowledge to a single
modality. Although this may offer performance gains, it often causes modality
misalignment, thereby failing to unlock the full potential of VLMs. In this
paper, we propose \textbf{NEARL-CLIP} (i\underline{N}teracted qu\underline{E}ry
\underline{A}daptation with o\underline{R}thogona\underline{L} Regularization),
a novel cross-modality interaction VLM-based framework that contains two
contributions: (1) Unified Synergy Embedding Transformer (USEformer), which
dynamically generates cross-modality queries to promote interaction between
modalities, thus fostering the mutual enrichment and enhancement of multi-modal
medical domain knowledge; (2) Orthogonal Cross-Attention Adapter (OCA). OCA
introduces an orthogonality technique to decouple the new knowledge from
USEformer into two distinct components: the truly novel information and the
incremental knowledge. By isolating the learning process from the interference
of incremental knowledge, OCA enables a more focused acquisition of new
information, thereby further facilitating modality interaction and unleashing
the capability of VLMs. Notably, NEARL-CLIP achieves these two contributions in
a parameter-efficient style, which only introduces \textbf{1.46M} learnable
parameters.
Ссылки и действия
Дополнительные ресурсы: