Towards Effective MLLM Jailbreaking Through Balanced On-Topicness and OOD-Intensity

2508.09218v1 cs.CV, cs.AI 2025-08-15

Авторы:

Zuoou Li, Weitong Zhang, Jingyuan Wang, Shuyuan Zhang, Wenjia Bai, Bernhard Kainz, Mengyun Qiao

Резюме на русском

## Контекст Multimodal large language models (MLLMs) широко применяются в задачах рассуждения сложных визуально-языковых моделей. Однако их уязвимость к атакам через адверсарные запросы остается критической проблемой. Несмотря на то, что некоторые методы хакерства (jailbreaking) показывают высокую точность, многие ответы, считаемые "успешными", оказываются безобидными, неточными или не относящимися к предназначенной цели. Это создает вопрос о точности существующих методов оценки успешности таких атак. Для устранения этой проблемы нужно новый подход, который более точно определяет эффективность атак. ## Метод Мы предлагаем новую методологию, основанную на четырёх осях: **on-topicness** (точность тематики), **out-of-distribution (OOD) intensity** (интенсивность нарушения ожидаемости), **harmfulness** (вредность) и **refusal rate** (частота отказов). Эта методология исследует отношение между тематической точностью запроса и его внешностью для системы. Затем, мы разработали алгоритм Balanced Structural Decomposition (BSD), который разделяет задачи на подзадачи, вводя небольшие внешности и изображения, чтобы скрыть потенциальные фильтры безопасности. ## Результаты Мы провёл эксперименты на 13 коммерческих и открытых MLLM-системах. Наши результаты показали, что ранее использованные методы часто либо заблокированы безопасностью, либо проходят без получения вредных результатов. BSD позволяет эффективно обойти такие защиты. Например, успешность атак увеличилась на $67\%$, а вредность выходных данных - на $21\%$. Это демонстрирует уязвимость существующих систем безопасности в отношении внешности запросов. ## Значимость Наш подход может применяться в повышении безопасности MLLM-систем, оценке их уязвимости и развитии безопасных моделей. Он демонстрирует важность размышления о характере запросов и их влиянии на безопасность. В дальнейшем, эта работа может помочь в разработке новых методов оценки и безопасного обучения, которые учитывают внешность и сигналы неожиданности. ## Выводы Наше исследование выявило новые структурные слабые места в безопасности MLLM-систем. Метод BSD не только улучшает успешность атак, но и выявляет слабые места в существующих системах. Будущие исследования будут сосредотачиваться на улучшении технологий оценки безопасности и формировании надежных безопасных моделей.

Abstract

Multimodal large language models (MLLMs) are widely used in vision-language reasoning tasks. However, their vulnerability to adversarial prompts remains a serious concern, as safety mechanisms often fail to prevent the generation of harmful outputs. Although recent jailbreak strategies report high success rates, many responses classified as "successful" are actually benign, vague, or unrelated to the intended malicious goal. This mismatch suggests that current evaluation standards may overestimate the effectiveness of such attacks. To address this issue, we introduce a four-axis evaluation framework that considers input on-topicness, input out-of-distribution (OOD) intensity, output harmfulness, and output refusal rate. This framework identifies truly effective jailbreaks. In a substantial empirical study, we reveal a structural trade-off: highly on-topic prompts are frequently blocked by safety filters, whereas those that are too OOD often evade detection but fail to produce harmful content. However, prompts that balance relevance and novelty are more likely to evade filters and trigger dangerous output. Building on this insight, we develop a recursive rewriting strategy called Balanced Structural Decomposition (BSD). The approach restructures malicious prompts into semantically aligned sub-tasks, while introducing subtle OOD signals and visual cues that make the inputs harder to detect. BSD was tested across 13 commercial and open-source MLLMs, where it consistently led to higher attack success rates, more harmful outputs, and fewer refusals. Compared to previous methods, it improves success rates by $67\%$ and harmfulness by $21\%$, revealing a previously underappreciated weakness in current multimodal safety systems.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Towards Effective MLLM Jailbreaking Through Balanced On-Topicness and OOD-Intensity

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Dual-Stream Spectral Decoupling Distillation for Remote Sensing Object Detection

Explainable Parkinsons Disease Gait Recognition Using Multimodal RGB-D Fusion an...

GuidNoise: Single-Pair Guided Diffusion for Generalized Noise Synthesis

PhyVLLM: Physics-Guided Video Language Model with Motion-Appearance Disentanglem...

Detection of Intoxicated Individuals from Facial Video Sequences via a Recurrent...

Навигация