Semantically Guided Adversarial Testing of Vision Models Using Language Models
2508.11341v1
cs.CV, cs.CR, cs.LG, 68T45, 68T01, 68T07, 68T10, 68M25, I.2.10; I.5.4; I.2.6; I.2.7; K.6.5
2025-08-19
Авторы:
Katarzyna Filus, Jorge M. Cruz-Duarte
Резюме на русском
#### Контекст
Визуальные модели, такие как нейронные сети, широко используются в различных областях, но остаются уязвимыми к атакам. Одной из сложных проблем в этой области является целесообразное выбор целевого класса для направленных атак. Целевой класс — это выбранный класс, к которому атакующий склоняет модель. Большинство существующих подходов к выбору целевого класса основываются на случайности, предсказаниях модели или статических семантических ресурсах, что приводит к проблемам интерпретируемости, воспроизводимости и гибкости. Это способствует необходимости разработки более гибких и интерпретируемых методов выбора целевых классов.
#### Метод
Мы предлагаем подход, основанный на семантическом гидровоздушном силовом аппарате (SGAT), который использует предобученные модели языка и языково-визуальных моделей для выбора целевого класса. Методология включает в себя перенос познаний между моделями, что позволяет выбирать классы на основе семантической схожести. Для оценки семантической схожести используются модели BERT, TinyLLAMA и CLIP. Эти модели предоставляют кросс-модальные представления для определения семантической схожести между целевыми классами и тегом значения, который необходимо отклонить в атаке.
#### Результаты
Мы проводили эксперименты с тремя различными моделями визуального анализа и пятью методами атак. В ходе этих экспериментов мы определили, что подход SGAT привносит большую гибкость и интерпретируемость в выбор целевых классов. Мы сравнили результаты статических лексикографических баз данных, таких как WordNet, и показали, что SGAT показывает более точные и перспективные результаты в случаях, когда целевые классы находятся далеко от истинного класса.
#### Значимость
Предлагаемый подход может быть применен в областях безопасности и тестирования визуальных моделей. Он предоставляет более гибкий и интерпретируемый подход к выбору целевых классов, что может привести к более эффективному тестированию моделей. Этот подход также может помочь в создании стандартизированных бенчмарков для адверсарского тестирования, что повысит обобщаемость и воспроизводимость результатов.
#### Выводы
Мы продемонстрировали, что SGAT является эффективным подходом к выбору целевых классов и позволяет создавать более точные и интерпретируемые адверсарские тесты. В дальнейших исследованиях мы планируем расширить применение этого подхода к другим моделям и данным, а также изучить возможности семантической оценки для других типов моделей и приложений.
Abstract
In targeted adversarial attacks on vision models, the selection of the target
label is a critical yet often overlooked determinant of attack success. This
target label corresponds to the class that the attacker aims to force the model
to predict. Now, existing strategies typically rely on randomness, model
predictions, or static semantic resources, limiting interpretability,
reproducibility, or flexibility. This paper then proposes a semantics-guided
framework for adversarial target selection using the cross-modal knowledge
transfer from pretrained language and vision-language models. We evaluate
several state-of-the-art models (BERT, TinyLLAMA, and CLIP) as similarity
sources to select the most and least semantically related labels with respect
to the ground truth, forming best- and worst-case adversarial scenarios. Our
experiments on three vision models and five attack methods reveal that these
models consistently render practical adversarial targets and surpass static
lexical databases, such as WordNet, particularly for distant class
relationships. We also observe that static testing of target labels offers a
preliminary assessment of the effectiveness of similarity sources, \textit{a
priori} testing. Our results corroborate the suitability of pretrained models
for constructing interpretable, standardized, and scalable adversarial
benchmarks across architectures and datasets.