Semantically Guided Adversarial Testing of Vision Models Using Language Models

2508.11341v1 cs.CV, cs.CR, cs.LG, 68T45, 68T01, 68T07, 68T10, 68M25, I.2.10; I.5.4; I.2.6; I.2.7; K.6.5 2025-08-19
Авторы:

Katarzyna Filus, Jorge M. Cruz-Duarte

Резюме на русском

#### Контекст Визуальные модели, такие как нейронные сети, широко используются в различных областях, но остаются уязвимыми к атакам. Одной из сложных проблем в этой области является целесообразное выбор целевого класса для направленных атак. Целевой класс — это выбранный класс, к которому атакующий склоняет модель. Большинство существующих подходов к выбору целевого класса основываются на случайности, предсказаниях модели или статических семантических ресурсах, что приводит к проблемам интерпретируемости, воспроизводимости и гибкости. Это способствует необходимости разработки более гибких и интерпретируемых методов выбора целевых классов. #### Метод Мы предлагаем подход, основанный на семантическом гидровоздушном силовом аппарате (SGAT), который использует предобученные модели языка и языково-визуальных моделей для выбора целевого класса. Методология включает в себя перенос познаний между моделями, что позволяет выбирать классы на основе семантической схожести. Для оценки семантической схожести используются модели BERT, TinyLLAMA и CLIP. Эти модели предоставляют кросс-модальные представления для определения семантической схожести между целевыми классами и тегом значения, который необходимо отклонить в атаке. #### Результаты Мы проводили эксперименты с тремя различными моделями визуального анализа и пятью методами атак. В ходе этих экспериментов мы определили, что подход SGAT привносит большую гибкость и интерпретируемость в выбор целевых классов. Мы сравнили результаты статических лексикографических баз данных, таких как WordNet, и показали, что SGAT показывает более точные и перспективные результаты в случаях, когда целевые классы находятся далеко от истинного класса. #### Значимость Предлагаемый подход может быть применен в областях безопасности и тестирования визуальных моделей. Он предоставляет более гибкий и интерпретируемый подход к выбору целевых классов, что может привести к более эффективному тестированию моделей. Этот подход также может помочь в создании стандартизированных бенчмарков для адверсарского тестирования, что повысит обобщаемость и воспроизводимость результатов. #### Выводы Мы продемонстрировали, что SGAT является эффективным подходом к выбору целевых классов и позволяет создавать более точные и интерпретируемые адверсарские тесты. В дальнейших исследованиях мы планируем расширить применение этого подхода к другим моделям и данным, а также изучить возможности семантической оценки для других типов моделей и приложений.

Abstract

In targeted adversarial attacks on vision models, the selection of the target label is a critical yet often overlooked determinant of attack success. This target label corresponds to the class that the attacker aims to force the model to predict. Now, existing strategies typically rely on randomness, model predictions, or static semantic resources, limiting interpretability, reproducibility, or flexibility. This paper then proposes a semantics-guided framework for adversarial target selection using the cross-modal knowledge transfer from pretrained language and vision-language models. We evaluate several state-of-the-art models (BERT, TinyLLAMA, and CLIP) as similarity sources to select the most and least semantically related labels with respect to the ground truth, forming best- and worst-case adversarial scenarios. Our experiments on three vision models and five attack methods reveal that these models consistently render practical adversarial targets and surpass static lexical databases, such as WordNet, particularly for distant class relationships. We also observe that static testing of target labels offers a preliminary assessment of the effectiveness of similarity sources, \textit{a priori} testing. Our results corroborate the suitability of pretrained models for constructing interpretable, standardized, and scalable adversarial benchmarks across architectures and datasets.

Ссылки и действия