Singular Value Few-shot Adaptation of Vision-Language Models

2509.03740v1 cs.CV, cs.CL 2025-09-06

Авторы:

Taha Koleilat, Hassan Rivaz, Yiming Xiao

Резюме на русском

#### Контекст Vision-language models (VLMs), такие как CLIP, демонстрируют впечатляющие возможности zero-shot и few-shot обучения в различных приложениях. Однако, приложение этих моделей к новым, тонко отформированным доменам становится проблемой из-за зависимости от предварительной настройки (prompt engineering) и высоких затрат на полную переобучку модели. Существующие методы адаптации часто вводят дополнительные компоненты, такие как токены-обозначения (prompt tokens) и модули-адаптера, которые могут ограничить качество адаптации, повлиять на стабильность модели и снизить эффективность, полученную в процессе предобучения. В этой работе мы предлагаем **CLIP-SVD**, новую многомодальную и параметр-эффективную методику адаптации, основанную на технике разложения по собственным значениям (Singular Value Decomposition, SVD), для изменения внутреннего пространства параметров CLIP без добавления дополнительных модулей. #### Метод CLIP-SVD делает использование Singular Value Decomposition (SVD) для изменения внутреннего пространства параметров модели CLIP. Вместо внедрения дополнительных модулей или токенов, мы изменяем только значения собственные (singular values) в матрицах параметров CLIP. Это позволяет изменять базисные векторы для выполнения доменной адаптации, сохраняя в то же время внутреннюю структуру и общую возможность модели. Наша техника требует только **0.04%** от общего числа параметров модели, чтобы достичь высокого уровня адаптации и генерализации. Это делает CLIP-SVD эффективным и универсальным инструментом для решения проблем адаптации во всех видах визуальных задач. #### Результаты Мы проводим эксперименты на 21 датасетах, включая 11 натуральных и 10 биомедицинских. Наши результаты показывают, что CLIP-SVD достигает **state-of-the-art** результатов в few-shot обучении по объёму достигнутых показателей точности и общей стабильности. Мы также создали новый подход, использующий естественный язык, для анализа эффективности и динамики адаптации CLIP-SVD, позволяющий понять и проанализировать процессы, происходящие внутри модели. #### Значимость CLIP-SVD может быть применен в различных областях, включая биомедицинскую интерпретацию изображений, обработку медицинских изображений и общую обработку изображений. Он предоставляет существенные преимущества в скорости и эффективности адаптации, а также сохраняет богатую базу знаний, полученную в процессе предобучения. Это означает, что CLIP-SVD может использоваться в ситуациях, требующих быстрого адаптирования моделей к новым данным, не теряя качества предсказаний. #### Выводы Мы представили CLIP-SVD, новую технику адаптации, которая применяет Singular Value Decomposition для изменения

Abstract

Vision-language models (VLMs) like CLIP have shown impressive zero-shot and few-shot learning capabilities across diverse applications. However, adapting these models to new fine-grained domains remains difficult due to reliance on prompt engineering and the high cost of full model fine-tuning. Existing adaptation approaches rely on augmented components, such as prompt tokens and adapter modules, which could limit adaptation quality, destabilize the model, and compromise the rich knowledge learned during pretraining. In this work, we present \textbf{CLIP-SVD}, a novel \textit{multi-modal} and \textit{parameter-efficient} adaptation technique that leverages Singular Value Decomposition (SVD) to modify the internal parameter space of CLIP without injecting additional modules. Specifically, we fine-tune only the singular values of the CLIP parameter matrices to rescale the basis vectors for domain adaptation while retaining the pretrained model. This design enables enhanced adaptation performance using only \textbf{0.04\%} of the model's total parameters and better preservation of its generalization ability. CLIP-SVD achieves state-of-the-art classification results on 11 natural and 10 biomedical datasets, outperforming previous methods in both accuracy and generalization under few-shot settings. Additionally, we leverage a natural language-based approach to analyze the effectiveness and dynamics of the CLIP adaptation to allow interpretability of CLIP-SVD. The code is publicly available at https://github.com/HealthX-Lab/CLIP-SVD.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Singular Value Few-shot Adaptation of Vision-Language Models

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Text-Only Training for Image Captioning with Retrieval Augmentation and Modality...

Generalized Medical Phrase Grounding

CartoMapQA: A Fundamental Benchmark Dataset Evaluating Vision-Language Models on...

Thinking with Programming Vision: Towards a Unified View for Thinking with Image...

See, Think, Learn: A Self-Taught Multimodal Reasoner

Навигация