NEARL-CLIP: Interacted Query Adaptation with Orthogonal Regularization for Medical Vision-Language Understanding

2508.04101v1 cs.CV 2025-08-09
Авторы:

Zelin Peng, Yichen Zhao, Yu Huang, Piao Yang, Feilong Tang, Zhengqin Xu, Xiaokang Yang, Wei Shen

Резюме на русском

**Резюме** Ограниченные медицинские данные с аннотациями становятся ограничением для развития моделей, ориентированных на клиническое применение. Затруднения возникают из-за большого разрыва домена, который существует между общими vision-language models (VLMs) и задачами медицинского визуального понимания. Несмотря на то, что существующие методы, такие как prompt learning и one-way interaction, пытаются решить эту проблему, они часто приводят к недостаточной интеграции модолей и недостаточной эффективности. В этой работе предлагается NEARL-CLIP — новый подход, основанный на cross-modality interaction, который включает два новых компонента. Вначале Unified Synergy Embedding Transformer (USEformer) динамически генерирует cross-modality queries для более глубокого взаимодействия между модальностями, что обеспечивает усиление медицинского знания. Затем, Orthogonal Cross-Attention Adapter (OCA) разделяет новый кластер знаний на два независимых компонента: новую информацию и дополнительные изменения. Это позволяет OCA более эффективно приобретать наборы знаний. В результате, NEARL-CLIP получает мощные результаты с только 1.46M learnable параметрами, демонстрируя сильный потенциал для решения проблемы domain gap в медицинской области.

Abstract

Computer-aided medical image analysis is crucial for disease diagnosis and treatment planning, yet limited annotated datasets restrict medical-specific model development. While vision-language models (VLMs) like CLIP offer strong generalization capabilities, their direct application to medical imaging analysis is impeded by a significant domain gap. Existing approaches to bridge this gap, including prompt learning and one-way modality interaction techniques, typically focus on introducing domain knowledge to a single modality. Although this may offer performance gains, it often causes modality misalignment, thereby failing to unlock the full potential of VLMs. In this paper, we propose \textbf{NEARL-CLIP} (i\underline{N}teracted qu\underline{E}ry \underline{A}daptation with o\underline{R}thogona\underline{L} Regularization), a novel cross-modality interaction VLM-based framework that contains two contributions: (1) Unified Synergy Embedding Transformer (USEformer), which dynamically generates cross-modality queries to promote interaction between modalities, thus fostering the mutual enrichment and enhancement of multi-modal medical domain knowledge; (2) Orthogonal Cross-Attention Adapter (OCA). OCA introduces an orthogonality technique to decouple the new knowledge from USEformer into two distinct components: the truly novel information and the incremental knowledge. By isolating the learning process from the interference of incremental knowledge, OCA enables a more focused acquisition of new information, thereby further facilitating modality interaction and unleashing the capability of VLMs. Notably, NEARL-CLIP achieves these two contributions in a parameter-efficient style, which only introduces \textbf{1.46M} learnable parameters.

Ссылки и действия