Navigating the Trade-off: A Synthesis of Defensive Strategies for Zero-Shot Adversarial Robustness in Vision-Language Models
2508.05237v1
cs.CV, cs.AI
2025-08-09
Авторы:
Zane Xu, Jason Sun
Резюме на русском
## КОНТЕКСТ И ПРОБЛЕМАТИКА
Современные мультимодальные модели, такие как CLIP, продемонстрировали выдающиеся способности к zero-shot классификации изображений, используя естественные языковые описания в качестве семантических якорей. Эти модели обучаются на масштабных датасетах сопряженных текстовых и визуальных данных, формируя общее встраиваемое пространство, где текстовые и визуальные представления близки по семантике. Однако, несмотря на впечатляющие результаты в "чистых" условиях, такие модели остаются крайне уязвимы к адверсариальным атакам - незаметным для человеческого глаза возмущениям во входных данных, способным полностью изменить предсказания модели.
Ключевая проблема заключается в фундаментальном конфликте между повышением адверсариальной робастности и сохранением zero-shot обобщающей способности. Традиционные методы защиты, эффективные для чисто визуальных моделей, оказываются неприменимыми в контексте VLMs из-за уникальной двухмодальной природы архитектуры и необходимости сохранения кросс-модального выравнивания. Более того, большинство существующих защит предполагают наличие обучающего набора из конкретной задачи, что противоречит zero-shot парадигме.
Исследовательское сообщество столкнулось с необходимостью разработки специализированных защитных механизмов, которые бы учитывали особенности мультимодального обучения и при этом не требовали переобучения модели на конкретной задаче. Это привело к формированию двух основных направлений: методов, модифицирующих параметры модели (Adversarial Fine-Tuning), и методов, работающих без изменения предобученных весов (Training-Free/Test-Time Defenses). Каждый подход имеет свои фундаментальные ограничения: первый рискует разрушить zero-shot обобщение, второй - ограничен в выразительной мощности защитных преобразований.
## ПРЕДЛОЖЕННЫЙ МЕТОД
Авторы обзора систематизируют восемь ключевых работ в области zero-shot адверсариальной робастности VLMs, классифицируя их по двум основным парадигмам защиты. Первая парадигма - Adversarial Fine-Tuning (AFT) - предполагает градиентное обновление параметров модели с целью повышения робастности, при этом критически важным является сохранение zero-shot способностей. Вторая парадигма - Training-Free/Test-Time Defenses - стремится обеспечить защиту без изменения предобученных весов модели.
Эволюция методов прослеживается от простых эвристик до сложных многоуровневых защит. Первоначально предлагались alignment-preserving методы, такие как TeCoA (Test-time Consistency Alignment), которые используют консистентность между исходными и возмущенными представлениями в качестве сигнала для обучения. Затем развились методы re-engineering встраиваемого пространства: LAAT (Learnable Adversarial Augmentation for Text) и TIMA (Test-time Image Modulation for Adversarial robustness) вносят адаптивные изменения в текстовые и визуальные встраивания соответственно.
Следующим этапом стало развитие input-level эвристик: AOM (Adversarial Output Matching) использует согласование выходов между оригинальными и преобразованными изображениями, а TTC (Test-time Transformation Consistency) применяет набор трансформаций для устранения адверсариального шума. Кульминацией стало развитие методов latent-space purification, представленных CLIPure, который использует диффузионные модели для очистки встраиваемых представлений в скрытом пространстве признаков.
Каждый метод вносит уникальный вклад в решение trade-off между робастностью и обобщением: от легковесных эвристик с минимальными вычислительными затратами до сложных многоступенчатых систем с диффузионной очисткой. Ключевым достижением является разработка методов, которые либо минимально вмешиваются в обученные представления, либо производят обучение исключительно на уровне адаптеров и модулей тонкой настройки.
## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ
Эмпирическая оценка методов проводилась на стандартных бенчмарках для zero-shot классификации, включая ImageNet и его различные смещения (ImageNet-A, ImageNet-R, ImageNet-Sketch), а также на специализированных датасетах для оценки адверсариальной робастности. Атаки оценивались как белые (PGD, AutoAttack), так и черные (Square Attack, Boundary Attack) сценарии, с фокусом на ImageNet-1K как основной тестовой площадке.
Результаты показывают интересную динамику trade-off между чистой точностью (clean accuracy) и ад
Abstract
This report synthesizes eight seminal papers on the zero-shot adversarial
robustness of vision-language models (VLMs) like CLIP. A central challenge in
this domain is the inherent trade-off between enhancing adversarial robustness
and preserving the model's zero-shot generalization capabilities. We analyze
two primary defense paradigms: Adversarial Fine-Tuning (AFT), which modifies
model parameters, and Training-Free/Test-Time Defenses, which preserve them. We
trace the evolution from alignment-preserving methods (TeCoA) to embedding
space re-engineering (LAAT, TIMA), and from input heuristics (AOM, TTC) to
latent-space purification (CLIPure). Finally, we identify key challenges and
future directions including hybrid defense strategies and adversarial
pre-training.
Ссылки и действия
Дополнительные ресурсы: