ANPrompt: Anti-noise Prompt Tuning for Vision-Language Models
2508.04677v2
cs.CV
2025-08-09
Авторы:
Yansheng Gao, Yufei Zheng, Jinghan Qu, Zixi Zhu, Yukuan Zhang, Shengsheng Wang
Резюме на русском
**Аннотация**
Проблема: Несмотря на высокую эффективность и экономичность, методы предложения (prompt tuning) для подстройки визуально-языковых моделей (VLMs) чувствительны к слабым семантическим помехам (например, небольшим шумам в изображениях или тексте), что снижает их общеупотребимость при работе с неизвестными классами.
**Предложенное решение**: Мы предлагаем ANPrompt — новую фреймворк продвинутого предложения, ориентированного на улучшение устойчивости к таким помехам. Фреймворк включает в себя создание шумовых промптов, их кластеризацию, интеграцию в глубинные слои модели, а также вычисление прототипа Noise-Resistant Visual Prompt Prototype (NRVPP). Дополнительно, ANPrompt вводит новые цели обучения: выравнивания, устойчивости и устойчивости к шумам.
**Основные выводы**: Эксперименты показали, что ANPrompt превосходит другие методы предложения по устойчивости к шуму и общей универсальности, показывая повышенную устойчивость к слабым семантическим помехам и улучшенную общую обобщаемость на новых классах.
Abstract
Prompt tuning has emerged as an efficient and effective technique for
adapting vision-language models (VLMs) with low computational overhead.
However, existing methods often overlook the vulnerability of prompt-tuned VLMs
to weak semantic perturbations-such as subtle image or text noise-that degrade
their generalization to unseen classes. To address this limitation, we propose
ANPrompt, a novel prompt tuning framework designed to enhance robustness under
such perturbations. ANPrompt first constructs weak noise text features by
fusing original and noise-perturbed text embeddings, which are then clustered
to form noise prompts. These noise prompts are integrated with learnable prompt
tokens to generate anti-noise prompts, which are injected into the deeper
layers of both image and text encoders. To further capture the noise-aware
visual semantics, ANPrompt computes the Noise-Resistant Visual Prompt Prototype
(NRVPP) by averaging the output prompt tokens from the vision encoder. Finally,
ANPrompt introduces alignment, robustness, and anti-noise objectives by
computing a Weak semantic noise Alignment Loss (WALoss) alongside the standard
cross-entropy and sim loss. Experiments across 11 benchmarks demonstrate that
ANPrompt consistently outperforms existing prompt tuning approaches, achieving
superior robustness to semantic noise and improved generalization to novel
categories.
Ссылки и действия
Дополнительные ресурсы: