Navigating the Trade-off: A Synthesis of Defensive Strategies for Zero-Shot Adversarial Robustness in Vision-Language Models

2508.05237v1 cs.CV, cs.AI 2025-08-09

Авторы:

Zane Xu, Jason Sun

Резюме на русском

## КОНТЕКСТ И ПРОБЛЕМАТИКА Современные мультимодальные модели, такие как CLIP, продемонстрировали выдающиеся способности к zero-shot классификации изображений, используя естественные языковые описания в качестве семантических якорей. Эти модели обучаются на масштабных датасетах сопряженных текстовых и визуальных данных, формируя общее встраиваемое пространство, где текстовые и визуальные представления близки по семантике. Однако, несмотря на впечатляющие результаты в "чистых" условиях, такие модели остаются крайне уязвимы к адверсариальным атакам - незаметным для человеческого глаза возмущениям во входных данных, способным полностью изменить предсказания модели. Ключевая проблема заключается в фундаментальном конфликте между повышением адверсариальной робастности и сохранением zero-shot обобщающей способности. Традиционные методы защиты, эффективные для чисто визуальных моделей, оказываются неприменимыми в контексте VLMs из-за уникальной двухмодальной природы архитектуры и необходимости сохранения кросс-модального выравнивания. Более того, большинство существующих защит предполагают наличие обучающего набора из конкретной задачи, что противоречит zero-shot парадигме. Исследовательское сообщество столкнулось с необходимостью разработки специализированных защитных механизмов, которые бы учитывали особенности мультимодального обучения и при этом не требовали переобучения модели на конкретной задаче. Это привело к формированию двух основных направлений: методов, модифицирующих параметры модели (Adversarial Fine-Tuning), и методов, работающих без изменения предобученных весов (Training-Free/Test-Time Defenses). Каждый подход имеет свои фундаментальные ограничения: первый рискует разрушить zero-shot обобщение, второй - ограничен в выразительной мощности защитных преобразований. ## ПРЕДЛОЖЕННЫЙ МЕТОД Авторы обзора систематизируют восемь ключевых работ в области zero-shot адверсариальной робастности VLMs, классифицируя их по двум основным парадигмам защиты. Первая парадигма - Adversarial Fine-Tuning (AFT) - предполагает градиентное обновление параметров модели с целью повышения робастности, при этом критически важным является сохранение zero-shot способностей. Вторая парадигма - Training-Free/Test-Time Defenses - стремится обеспечить защиту без изменения предобученных весов модели. Эволюция методов прослеживается от простых эвристик до сложных многоуровневых защит. Первоначально предлагались alignment-preserving методы, такие как TeCoA (Test-time Consistency Alignment), которые используют консистентность между исходными и возмущенными представлениями в качестве сигнала для обучения. Затем развились методы re-engineering встраиваемого пространства: LAAT (Learnable Adversarial Augmentation for Text) и TIMA (Test-time Image Modulation for Adversarial robustness) вносят адаптивные изменения в текстовые и визуальные встраивания соответственно. Следующим этапом стало развитие input-level эвристик: AOM (Adversarial Output Matching) использует согласование выходов между оригинальными и преобразованными изображениями, а TTC (Test-time Transformation Consistency) применяет набор трансформаций для устранения адверсариального шума. Кульминацией стало развитие методов latent-space purification, представленных CLIPure, который использует диффузионные модели для очистки встраиваемых представлений в скрытом пространстве признаков. Каждый метод вносит уникальный вклад в решение trade-off между робастностью и обобщением: от легковесных эвристик с минимальными вычислительными затратами до сложных многоступенчатых систем с диффузионной очисткой. Ключевым достижением является разработка методов, которые либо минимально вмешиваются в обученные представления, либо производят обучение исключительно на уровне адаптеров и модулей тонкой настройки. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Эмпирическая оценка методов проводилась на стандартных бенчмарках для zero-shot классификации, включая ImageNet и его различные смещения (ImageNet-A, ImageNet-R, ImageNet-Sketch), а также на специализированных датасетах для оценки адверсариальной робастности. Атаки оценивались как белые (PGD, AutoAttack), так и черные (Square Attack, Boundary Attack) сценарии, с фокусом на ImageNet-1K как основной тестовой площадке. Результаты показывают интересную динамику trade-off между чистой точностью (clean accuracy) и ад

Abstract

This report synthesizes eight seminal papers on the zero-shot adversarial robustness of vision-language models (VLMs) like CLIP. A central challenge in this domain is the inherent trade-off between enhancing adversarial robustness and preserving the model's zero-shot generalization capabilities. We analyze two primary defense paradigms: Adversarial Fine-Tuning (AFT), which modifies model parameters, and Training-Free/Test-Time Defenses, which preserve them. We trace the evolution from alignment-preserving methods (TeCoA) to embedding space re-engineering (LAAT, TIMA), and from input heuristics (AOM, TTC) to latent-space purification (CLIPure). Finally, we identify key challenges and future directions including hybrid defense strategies and adversarial pre-training.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Navigating the Trade-off: A Synthesis of Defensive Strategies for Zero-Shot Adversarial Robustness in Vision-Language Models

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Dual-Stream Spectral Decoupling Distillation for Remote Sensing Object Detection

Explainable Parkinsons Disease Gait Recognition Using Multimodal RGB-D Fusion an...

GuidNoise: Single-Pair Guided Diffusion for Generalized Noise Synthesis

PhyVLLM: Physics-Guided Video Language Model with Motion-Appearance Disentanglem...

Detection of Intoxicated Individuals from Facial Video Sequences via a Recurrent...

Навигация