ANPrompt: Anti-noise Prompt Tuning for Vision-Language Models

2508.04677v2 cs.CV 2025-08-09
Авторы:

Yansheng Gao, Yufei Zheng, Jinghan Qu, Zixi Zhu, Yukuan Zhang, Shengsheng Wang

Резюме на русском

**Аннотация** Проблема: Несмотря на высокую эффективность и экономичность, методы предложения (prompt tuning) для подстройки визуально-языковых моделей (VLMs) чувствительны к слабым семантическим помехам (например, небольшим шумам в изображениях или тексте), что снижает их общеупотребимость при работе с неизвестными классами. **Предложенное решение**: Мы предлагаем ANPrompt — новую фреймворк продвинутого предложения, ориентированного на улучшение устойчивости к таким помехам. Фреймворк включает в себя создание шумовых промптов, их кластеризацию, интеграцию в глубинные слои модели, а также вычисление прототипа Noise-Resistant Visual Prompt Prototype (NRVPP). Дополнительно, ANPrompt вводит новые цели обучения: выравнивания, устойчивости и устойчивости к шумам. **Основные выводы**: Эксперименты показали, что ANPrompt превосходит другие методы предложения по устойчивости к шуму и общей универсальности, показывая повышенную устойчивость к слабым семантическим помехам и улучшенную общую обобщаемость на новых классах.

Abstract

Prompt tuning has emerged as an efficient and effective technique for adapting vision-language models (VLMs) with low computational overhead. However, existing methods often overlook the vulnerability of prompt-tuned VLMs to weak semantic perturbations-such as subtle image or text noise-that degrade their generalization to unseen classes. To address this limitation, we propose ANPrompt, a novel prompt tuning framework designed to enhance robustness under such perturbations. ANPrompt first constructs weak noise text features by fusing original and noise-perturbed text embeddings, which are then clustered to form noise prompts. These noise prompts are integrated with learnable prompt tokens to generate anti-noise prompts, which are injected into the deeper layers of both image and text encoders. To further capture the noise-aware visual semantics, ANPrompt computes the Noise-Resistant Visual Prompt Prototype (NRVPP) by averaging the output prompt tokens from the vision encoder. Finally, ANPrompt introduces alignment, robustness, and anti-noise objectives by computing a Weak semantic noise Alignment Loss (WALoss) alongside the standard cross-entropy and sim loss. Experiments across 11 benchmarks demonstrate that ANPrompt consistently outperforms existing prompt tuning approaches, achieving superior robustness to semantic noise and improved generalization to novel categories.

Ссылки и действия