Towards Effective MLLM Jailbreaking Through Balanced On-Topicness and OOD-Intensity
2508.09218v1
cs.CV, cs.AI
2025-08-15
Авторы:
Zuoou Li, Weitong Zhang, Jingyuan Wang, Shuyuan Zhang, Wenjia Bai, Bernhard Kainz, Mengyun Qiao
Резюме на русском
## Контекст
Multimodal large language models (MLLMs) широко применяются в задачах рассуждения сложных визуально-языковых моделей. Однако их уязвимость к атакам через адверсарные запросы остается критической проблемой. Несмотря на то, что некоторые методы хакерства (jailbreaking) показывают высокую точность, многие ответы, считаемые "успешными", оказываются безобидными, неточными или не относящимися к предназначенной цели. Это создает вопрос о точности существующих методов оценки успешности таких атак. Для устранения этой проблемы нужно новый подход, который более точно определяет эффективность атак.
## Метод
Мы предлагаем новую методологию, основанную на четырёх осях: **on-topicness** (точность тематики), **out-of-distribution (OOD) intensity** (интенсивность нарушения ожидаемости), **harmfulness** (вредность) и **refusal rate** (частота отказов). Эта методология исследует отношение между тематической точностью запроса и его внешностью для системы. Затем, мы разработали алгоритм Balanced Structural Decomposition (BSD), который разделяет задачи на подзадачи, вводя небольшие внешности и изображения, чтобы скрыть потенциальные фильтры безопасности.
## Результаты
Мы провёл эксперименты на 13 коммерческих и открытых MLLM-системах. Наши результаты показали, что ранее использованные методы часто либо заблокированы безопасностью, либо проходят без получения вредных результатов. BSD позволяет эффективно обойти такие защиты. Например, успешность атак увеличилась на $67\%$, а вредность выходных данных - на $21\%$. Это демонстрирует уязвимость существующих систем безопасности в отношении внешности запросов.
## Значимость
Наш подход может применяться в повышении безопасности MLLM-систем, оценке их уязвимости и развитии безопасных моделей. Он демонстрирует важность размышления о характере запросов и их влиянии на безопасность. В дальнейшем, эта работа может помочь в разработке новых методов оценки и безопасного обучения, которые учитывают внешность и сигналы неожиданности.
## Выводы
Наше исследование выявило новые структурные слабые места в безопасности MLLM-систем. Метод BSD не только улучшает успешность атак, но и выявляет слабые места в существующих системах. Будущие исследования будут сосредотачиваться на улучшении технологий оценки безопасности и формировании надежных безопасных моделей.
Abstract
Multimodal large language models (MLLMs) are widely used in vision-language
reasoning tasks. However, their vulnerability to adversarial prompts remains a
serious concern, as safety mechanisms often fail to prevent the generation of
harmful outputs. Although recent jailbreak strategies report high success
rates, many responses classified as "successful" are actually benign, vague, or
unrelated to the intended malicious goal. This mismatch suggests that current
evaluation standards may overestimate the effectiveness of such attacks. To
address this issue, we introduce a four-axis evaluation framework that
considers input on-topicness, input out-of-distribution (OOD) intensity, output
harmfulness, and output refusal rate. This framework identifies truly effective
jailbreaks. In a substantial empirical study, we reveal a structural trade-off:
highly on-topic prompts are frequently blocked by safety filters, whereas those
that are too OOD often evade detection but fail to produce harmful content.
However, prompts that balance relevance and novelty are more likely to evade
filters and trigger dangerous output. Building on this insight, we develop a
recursive rewriting strategy called Balanced Structural Decomposition (BSD).
The approach restructures malicious prompts into semantically aligned
sub-tasks, while introducing subtle OOD signals and visual cues that make the
inputs harder to detect. BSD was tested across 13 commercial and open-source
MLLMs, where it consistently led to higher attack success rates, more harmful
outputs, and fewer refusals. Compared to previous methods, it improves success
rates by $67\%$ and harmfulness by $21\%$, revealing a previously
underappreciated weakness in current multimodal safety systems.
Ссылки и действия
Дополнительные ресурсы: