IAG: Input-aware Backdoor Attack on VLMs for Visual Grounding
2508.09456v1
cs.CV, cs.CL, cs.CR
2025-08-15
Авторы:
Junxian Li, Beining Xu, Di Zhang
Резюме на русском
## Контекст
Vision-language models (VLMs), такие как CLIP или Flamingo, достигли выдающихся результатов в таких задачах, как визуальное граундинг, где они используются для нахождения конкретных объектов на изображениях по естественному языковому запросу. Однако, несмотря на их эффективность, эти модели остаются чувствительными к атакам, особенно в контексте визуального граундинга. Одна из таких атак — backdoor attack, при которой модель модифицируется таким образом, чтобы при выполнении задачи визуального граундинга классифицировать объект в изображении не в зависимости от конкретного языкового запроса пользователя, а исходя из подкрадываемой невидимой зараженной схемы (trigger). Такие атаки способствуют угрозам, связанным с недоверием к моделям, в том числе в сфере безопасности информации, и требуют дополнительных исследований в области защиты визуальных моделей от таких атак.
## Метод
Мы предлагаем вводить новый подход к backdoor attack, который мы назвали IAG (Input-aware Backdoor Attack). Этот метод использует адаптивную генерацию триггеров, которые внедряют семантическую информацию о целевом объекте в исходное изображение. Для этого мы применяем текст-управляемую U-Net, которая позволяет создавать невидимые триггеры, которые затем интегрируются в изображение. Таким образом, визуальное граундинг модели может быть легко изменено на основе триггера. Для обеспечения скрытости атаки мы используем потерю воспроизведения, которая минимизирует различия между атакованным и чистым изображением. Наш подход также включает в себя метод синтеза атакованных данных для тренировки модели с целевой зараженной схемой. Этот подход отличается гибкостью и может быть применен к различным моделям, таким как InternVL, Ferret и LlaVA.
## Результаты
Мы провели ряд экспериментов для оценки эффективности IAG. Использовав адаптивные триггеры, мы добились высокой степени успеха в заставлянии модели визуального граундинга классифицировать определенный целевой объект, независимо от того, какой языковой запрос пользователя. Наша модель IAG продемонстрировала очень высокую степень скрытости, чтобы не вызвать подозрения в том, что изображение было заражено, и мы достигли неплохих результатов на специально разработанных тестовых наборах данных. Мы провели как абляционное исследование, так и эксперименты по борьбе с атакой, чтобы продемонстрировать жесткость и надежность IAG. Наши эксперименты показали, что IAG может эффективно атаковать не только малые модели, но и более сложные, такие как LlaVA-1.5-7B.
## Значимость
Наш IAG-атака имеет широкое применение в различных обла
Abstract
Vision-language models (VLMs) have shown significant advancements in tasks
such as visual grounding, where they localize specific objects in images based
on natural language queries and images. However, security issues in visual
grounding tasks for VLMs remain underexplored, especially in the context of
backdoor attacks. In this paper, we introduce a novel input-aware backdoor
attack method, IAG, designed to manipulate the grounding behavior of VLMs. This
attack forces the model to ground a specific target object in the input image,
regardless of the user's query. We propose an adaptive trigger generator that
embeds the semantic information of the attack target's description into the
original image using a text-conditional U-Net, thereby overcoming the
open-vocabulary attack challenge. To ensure the attack's stealthiness, we
utilize a reconstruction loss to minimize visual discrepancies between poisoned
and clean images. Additionally, we introduce a unified method for generating
attack data. IAG is evaluated theoretically and empirically, demonstrating its
feasibility and effectiveness. Notably, our [email protected] on InternVL-2.5-8B reaches
over 65\% on various testing sets. IAG also shows promising potential on
manipulating Ferret-7B and LlaVA-1.5-7B with very little accuracy decrease on
clean samples. Extensive specific experiments, such as ablation study and
potential defense, also indicate the robustness and transferability of our
attack.
Ссылки и действия
Дополнительные ресурсы: