IAG: Input-aware Backdoor Attack on VLMs for Visual Grounding

2508.09456v1 cs.CV, cs.CL, cs.CR 2025-08-15
Авторы:

Junxian Li, Beining Xu, Di Zhang

Резюме на русском

## Контекст Vision-language models (VLMs), такие как CLIP или Flamingo, достигли выдающихся результатов в таких задачах, как визуальное граундинг, где они используются для нахождения конкретных объектов на изображениях по естественному языковому запросу. Однако, несмотря на их эффективность, эти модели остаются чувствительными к атакам, особенно в контексте визуального граундинга. Одна из таких атак — backdoor attack, при которой модель модифицируется таким образом, чтобы при выполнении задачи визуального граундинга классифицировать объект в изображении не в зависимости от конкретного языкового запроса пользователя, а исходя из подкрадываемой невидимой зараженной схемы (trigger). Такие атаки способствуют угрозам, связанным с недоверием к моделям, в том числе в сфере безопасности информации, и требуют дополнительных исследований в области защиты визуальных моделей от таких атак. ## Метод Мы предлагаем вводить новый подход к backdoor attack, который мы назвали IAG (Input-aware Backdoor Attack). Этот метод использует адаптивную генерацию триггеров, которые внедряют семантическую информацию о целевом объекте в исходное изображение. Для этого мы применяем текст-управляемую U-Net, которая позволяет создавать невидимые триггеры, которые затем интегрируются в изображение. Таким образом, визуальное граундинг модели может быть легко изменено на основе триггера. Для обеспечения скрытости атаки мы используем потерю воспроизведения, которая минимизирует различия между атакованным и чистым изображением. Наш подход также включает в себя метод синтеза атакованных данных для тренировки модели с целевой зараженной схемой. Этот подход отличается гибкостью и может быть применен к различным моделям, таким как InternVL, Ferret и LlaVA. ## Результаты Мы провели ряд экспериментов для оценки эффективности IAG. Использовав адаптивные триггеры, мы добились высокой степени успеха в заставлянии модели визуального граундинга классифицировать определенный целевой объект, независимо от того, какой языковой запрос пользователя. Наша модель IAG продемонстрировала очень высокую степень скрытости, чтобы не вызвать подозрения в том, что изображение было заражено, и мы достигли неплохих результатов на специально разработанных тестовых наборах данных. Мы провели как абляционное исследование, так и эксперименты по борьбе с атакой, чтобы продемонстрировать жесткость и надежность IAG. Наши эксперименты показали, что IAG может эффективно атаковать не только малые модели, но и более сложные, такие как LlaVA-1.5-7B. ## Значимость Наш IAG-атака имеет широкое применение в различных обла

Abstract

Vision-language models (VLMs) have shown significant advancements in tasks such as visual grounding, where they localize specific objects in images based on natural language queries and images. However, security issues in visual grounding tasks for VLMs remain underexplored, especially in the context of backdoor attacks. In this paper, we introduce a novel input-aware backdoor attack method, IAG, designed to manipulate the grounding behavior of VLMs. This attack forces the model to ground a specific target object in the input image, regardless of the user's query. We propose an adaptive trigger generator that embeds the semantic information of the attack target's description into the original image using a text-conditional U-Net, thereby overcoming the open-vocabulary attack challenge. To ensure the attack's stealthiness, we utilize a reconstruction loss to minimize visual discrepancies between poisoned and clean images. Additionally, we introduce a unified method for generating attack data. IAG is evaluated theoretically and empirically, demonstrating its feasibility and effectiveness. Notably, our [email protected] on InternVL-2.5-8B reaches over 65\% on various testing sets. IAG also shows promising potential on manipulating Ferret-7B and LlaVA-1.5-7B with very little accuracy decrease on clean samples. Extensive specific experiments, such as ablation study and potential defense, also indicate the robustness and transferability of our attack.

Ссылки и действия

Связанные статьи

Self-adaptive Dataset Construction for Real-World Multimodal Safety Scenarios

#### Контекст Multimodal large language models (MLLMs) широко используются в различных приложениях, но их применение св...

2025-09-06