📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 Contextual Image Attack: How Visual Context Exposes Multimodal Safety Vulnerabilities

2025-12-03

Авторы:

Yuan Xiong, Ziqi Miao, Lijun Li, Chen Qian, Jie Li, Jing Shao

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

While Multimodal Large Language Models (MLLMs) show remarkable capabilities, their safety alignments are susceptible to jailbreak attacks. Existing attack methods typically focus on text-image interplay, treating the visual modality as a secondary prompt. This approach underutilizes the unique potential of images to carry complex, contextual information. To address this gap, we propose a new image-centric attack method, Contextual Image Attack (CIA), which employs a multi-agent system to subtly ...

ID: 2512.02973v1 cs.CV, cs.CL, cs.CR

arXiv PDF

📄 Self-adaptive Dataset Construction for Real-World Multimodal Safety Scenarios

2025-09-06

Авторы:

Jingen Qu, Lijun Li, Bo Zhang, Yichen Yan, Jing Shao

#### Контекст Multimodal large language models (MLLMs) широко используются в различных приложениях, но их применение связано с увеличивающимися вызовами для обеспечения безопасности. Реальный мир часто порождает сложные сценарии, требующие учета множества факторов, включая различные ситуации, вызовы и реакции. Существующие методы построения датасетов, ориентированные на риск, не полностью учитывают эти сложности. Это приводит к недостаточности многих текущих подходов в построении датасетов, удовлетворяющих потребностям реальных сценариев. Более того, отсутствие единого метрического подхода к оценке эффективности датасетов делает их итоговую эффективность неоднозначной. В этой работе мы предлагаем новую методику построения датасетов, ориентированную на изображения, которая позволяет лучше учитывать реальные сценарии безопасности и обеспечивает более широкий и точный подход к их оценке. #### Метод Мы предлагаем изображение-ориентированный подход для сбора данных, который начинается с выбора сцен, связанных с мультимодальной безопасностью, затем автоматически строит текстовые ответы и рекомендации, основываясь на этих изображениях. Наша методика включает в себя несколько этапов: сбор изображений, описание их сцен, структурирование рекомендаций и текстовых ответов. Это позволяет создавать большие датасеты, содержащие различные сценарии, которые могут быть использованы для обучения и оценки безопасности. Мы также предлагаем метрику для оценки эффективности датасетов, основанную на том, как хорошо модель, обученная на данных, справляется с этими данными в других сценариях. Эта метрика помогает сравнивать различные датасеты и определять их уровень эффективности в реальных сценариях. #### Результаты Мы применили нашу методику для построения датасета, содержащего 35 000 изображение-текстовых пар с рекомендациями. Мы проверили эффективность этого подхода с помощью различных задач, включая оценку безопасности, распознавание объектов и анализ текста. Результаты показали, что наша методика дает значительный выигрыш в точности и общей эффективности по сравнению с другими методами. Мы также проверили нашу метрику, применяя ее к различным датасетам, и показали, что она обеспечивает надежный и универсальный подход к оценке безопасности. #### Значимость Наш подход может быть использован в различных областях, где требуется учет различных факторов безопасности в реальном мире. Например, он может применяться в транспортных системах, где сценарии безопасности разнообразны и сложны. Этот подход также может быть полезен для ра

Annotation:

Multimodal large language models (MLLMs) are rapidly evolving, presenting increasingly complex safety challenges. However, current dataset construction methods, which are risk-oriented, fail to cover the growing complexity of real-world multimodal safety scenarios (RMS). And due to the lack of a unified evaluation metric, their overall effectiveness remains unproven. This paper introduces a novel image-oriented self-adaptive dataset construction method for RMS, which starts with images and end c...

ID: 2509.04403v1 cs.CV, cs.CL, cs.CR

arXiv PDF

📄 IAG: Input-aware Backdoor Attack on VLMs for Visual Grounding

2025-08-15

Авторы:

Junxian Li, Beining Xu, Di Zhang

## Контекст Vision-language models (VLMs), такие как CLIP или Flamingo, достигли выдающихся результатов в таких задачах, как визуальное граундинг, где они используются для нахождения конкретных объектов на изображениях по естественному языковому запросу. Однако, несмотря на их эффективность, эти модели остаются чувствительными к атакам, особенно в контексте визуального граундинга. Одна из таких атак — backdoor attack, при которой модель модифицируется таким образом, чтобы при выполнении задачи визуального граундинга классифицировать объект в изображении не в зависимости от конкретного языкового запроса пользователя, а исходя из подкрадываемой невидимой зараженной схемы (trigger). Такие атаки способствуют угрозам, связанным с недоверием к моделям, в том числе в сфере безопасности информации, и требуют дополнительных исследований в области защиты визуальных моделей от таких атак. ## Метод Мы предлагаем вводить новый подход к backdoor attack, который мы назвали IAG (Input-aware Backdoor Attack). Этот метод использует адаптивную генерацию триггеров, которые внедряют семантическую информацию о целевом объекте в исходное изображение. Для этого мы применяем текст-управляемую U-Net, которая позволяет создавать невидимые триггеры, которые затем интегрируются в изображение. Таким образом, визуальное граундинг модели может быть легко изменено на основе триггера. Для обеспечения скрытости атаки мы используем потерю воспроизведения, которая минимизирует различия между атакованным и чистым изображением. Наш подход также включает в себя метод синтеза атакованных данных для тренировки модели с целевой зараженной схемой. Этот подход отличается гибкостью и может быть применен к различным моделям, таким как InternVL, Ferret и LlaVA. ## Результаты Мы провели ряд экспериментов для оценки эффективности IAG. Использовав адаптивные триггеры, мы добились высокой степени успеха в заставлянии модели визуального граундинга классифицировать определенный целевой объект, независимо от того, какой языковой запрос пользователя. Наша модель IAG продемонстрировала очень высокую степень скрытости, чтобы не вызвать подозрения в том, что изображение было заражено, и мы достигли неплохих результатов на специально разработанных тестовых наборах данных. Мы провели как абляционное исследование, так и эксперименты по борьбе с атакой, чтобы продемонстрировать жесткость и надежность IAG. Наши эксперименты показали, что IAG может эффективно атаковать не только малые модели, но и более сложные, такие как LlaVA-1.5-7B. ## Значимость Наш IAG-атака имеет широкое применение в различных обла

Annotation:

Vision-language models (VLMs) have shown significant advancements in tasks such as visual grounding, where they localize specific objects in images based on natural language queries and images. However, security issues in visual grounding tasks for VLMs remain underexplored, especially in the context of backdoor attacks. In this paper, we introduce a novel input-aware backdoor attack method, IAG, designed to manipulate the grounding behavior of VLMs. This attack forces the model to ground a spec...

ID: 2508.09456v1 cs.CV, cs.CL, cs.CR

arXiv PDF