📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 0

Последнее обновление: сегодня

📄 Training Language Model Agents to Find Vulnerabilities with CTF-Dojo

2025-08-28

Авторы:

Terry Yue Zhuo, Dingmin Wang, Hantian Ding, Varun Kumar, Zijian Wang

## Контекст Современные большие языковые модели (LLMs) продемонстрировали их великолепные возможности, особенно в сфере инженерии программного обеспечения, где они используют верифицированные обратные сигналы для обучения. Несмотря на это, высококачественные исполняемые среды для обучения таких моделей остаются редкостью. Это ограничивает возможности для развития мощных машинных обучаемых агентов. Одной из главных проблем является существующая систематическая сложность в создании и поддержании таких сред, что требует больших усилий и ресурсов. Мы предлагаем CTF-Dojo, первую уникальную платформу, созданную с целью обучения LLMs в исполняемых средах с поддержкой верифицированных обратных сигналов. Она включает 658 полностью функциональных задач в стиле Capture-The-Flag (CTF), контейнеризованных в Docker, с гарантированной повторяемостью. Эта платформа позволяет значительно упростить процесс развертывания интерактивных исполняемых сред в обучении LLMs, позволяя быстро и эффективно создавать новые среды. ## Метод CTF-Dojo базируется на архитектуре, которая сочетает в себе верифицированные задачи стиля CTF с инструментами автоматизации для создания исполняемых сред. Мы разработали CTF-Forge, автоматизированную систему, которая может принимать общедоступные данные и преобразовывать их в готовые к использованию среды за несколько минут. Это устраняет необходимость в ресурсоемкой и дорогостоящей конфигурации, которая, как правило, занимает несколько недель. Однако CTF-Dojo не только упрощает процесс, но и добавляет значительные возможности для выполнения сложных задач в стиле CTF. Это позволяет обучать модели не только с помощью традиционных методов, но и с использованием новых, более эффективных подходов. ## Результаты Мы провели исследования с использованием LLM-агентов, обученных на CTF-Dojo. Мы использовали 486 высококачественных, верифицированных структурных обучающих траекторий. Это привело к улучшению результатов на трех различных бенчмарках: InterCode-CTF, NYU CTF Bench и Cybench. Наша модель 32B достигла доля 31.9% Pass@1, что является новым самым высоким результатом в открытом весовом классе. Этот результат находится на уровне с такими моделями, как DeepSeek-V3-0324 и Gemini-2.5-Flash. Эти результаты показывают, что интеллектуальные системы, обучаемые через исполняемые среды, могут достигать высоких результатов без необходимости использования дорогостоящих и закрытых систем. ## Значимость CTF-Dojo открывает новые возможности для обучения моделей с помощью исполняемых сред без необходимости использования дорогостоящих и

Annotation:

Large language models (LLMs) have demonstrated exceptional capabilities when trained within executable runtime environments, notably excelling at software engineering tasks through verified feedback loops. Yet, scalable and generalizable execution-grounded environments remain scarce, limiting progress in training more capable ML agents. We introduce CTF-Dojo, the first large-scale executable runtime tailored for training LLMs with verifiable feedback, featuring 658 fully functional Capture-The-F...

ID: 2508.18370v1 cs.SE, cs.CL, cs.CR, cs.LG

arXiv PDF

📄 Membership Inference Attacks on LLM-based Recommender Systems

2025-08-28

Авторы:

Jiajie He, Yuechun Gu, Min-Chun Chen, Keke Chen

## Контекст Large language models (LLMs), внедренные в рекомендательные системы (RecSys), предлагают гибкий и эффективный подход к адаптации рекомендаций к различным доменам. Одним из ключевых инструментов является включение в контекстные запросы (in-context learning, ICL), позволяющий настраивать рекомендательные функции на основе пользовательских данных. Эти данные могут включать в себя такие конфиденциальные элементы, как история взаимодействия пользователя с элементами (например, клики или рецензии). Несмотря на важность этих данных, существующие исследования не рассматривали потенциальную угрозу, связанную с использованием таких данных в контекстном обучении. Кроме того, существуют угрозы, связанные с вытекающими из этих данных сведениями о личности пользователей. Этот аспект требует дополнительных исследований. ## Метод Наше исследование состоит в разработке и оценке различных типов методов атак на конфиденциальность в LLM-based RecSys. Мы определили 4 типа атак: **прямая запросная атака (direct inquiry attack)**, **атака на основе вымышленности (hallucination attack)**, **атака на основе сходства (similarity attack)** и **атака с использованием вирусообразного вмешательства (poisoning attack)**. Каждый тип атаки использует уникальные особенности LLM и RecSys, чтобы выявить информацию о включении конкретных пользователей в системные модели. Мы также разработали экспериментальный план, включающий оценку на нескольких моделях LLM и двух бенчмарк-датасетах RecSys. Это позволило нам протестировать эффективность каждого типа атаки в реальной среде. ## Результаты Наши эксперименты показали, что угроза со стороны MIA в LLM-based RecSys очень реальна. Типы атак, такие как **direct inquiry** и **poisoning attack**, демонстрируют высокую эффективность. Мы также выявили, что факторы, такие как количество системных примеров (shots) в контекстном запросе и позиция жертвы в этих примерах, могут значительно повлиять на результаты атак. Эти результаты подтверждают, что злоумышленники могут предсказать, включен ли конкретный пользователь в систему, лишь используя частичные данные. ## Значимость Полученные результаты имеют большое значение для развития безопасных LLM-based RecSys. Мы продемонстрировали техническую возможность MIA в этой области и показали, каким образом эти угрозы могут быть эффективно использованы в практических ситуациях. Это открывает возможности для развития новых методов защиты, таких как шифрование данных и анонимность взаимодействия. Будущие исследования будут сфокусированы на создании эффективных методов защиты и обнаружения таких атак, а также на изучении эффективности различных стратегий атак в раз

Annotation:

Large language models (LLMs) based Recommender Systems (RecSys) can flexibly adapt recommendation systems to different domains. It utilizes in-context learning (ICL), i.e., the prompts, to customize the recommendation functions, which include sensitive historical user-specific item interactions, e.g., implicit feedback like clicked items or explicit product reviews. Such private information may be exposed to novel privacy attack. However, no study has been done on this important issue. We design...

ID: 2508.18665v1 cs.IR, cs.AI, cs.CL, cs.CR, cs.LG

arXiv PDF

📄 GRAID: Synthetic Data Generation with Geometric Constraints and Multi-Agentic Reflection for Harmful Content Detection

2025-08-27

Авторы:

Melissa Kazemi Rad, Alberto Purpura, Himanshu Kumar, Emily Chen, Mohammad Shahed Sorower

## Контекст В условиях внедрения интеллектуальных систем в широкие области применения, такие как социальные сети, мобильные приложения и машинное обучение, возрастает необходимость эффективных методов для обнаружения и отбора вредоносного контента. Несмотря на развитие методов машинного обучения, одной из основных проблем становится существенное недостатко данных для обучения моделей, особенно в сферах, где контент может быть не только вредоносным, но и защищенным законом. Это создает риск для моделей, которые могут оказаться неподготовленными к обнаружению высокоспецифичных видов вредоносного контента. Чтобы устранить это недостатки, необходимо развить методы синтетического пополнения данных, которые могут обеспечить широкое представление потенциального диапазона ситуаций. ## Метод GRAID (Geometric and Reflective AI-Driven Data Augmentation) — это новый подход к синтетическому пополнению данных, основанный на применении больших языковых моделей (LLMs). Он состоит из двух этапов. На первом этапе используется LLM с ограничениями, чтобы синтезировать новые примеры данных с учетом геометрических ограничений, таких как синтаксическая и семантическая корректность. На втором этапе используется многоагентный процесс отражения, который позволяет улучшить стилистическую разнообразие и откроет возможность для охвата крайних случаев. Эта стратегия обеспечивает охват входного пространства данных с одной стороны и позволяет углубиться в детали вредоносных ситуаций с другой. ## Результаты На двух наборах бенчмарк-данных, развернутых для обучения модели защиты от вредоносного контента, GRAID показал существенное улучшение в работе модели. Эксперименты показали, что добавление синтетических примеров, сгенерированных GRAID, позволяет увеличить точность и общую производительность модели. В частности, улучшение было наиболее заметно в случаях, когда модель должна была распознавать нестандартные виды вредоносного контента, для которых существует недостаток примеров в обучающей выборке. ## Значимость Помимо обнаружения вредоносного контента, GRAID может применяться в различных областях, таких как синтез данных для медицины, финансов и юридических систем. Основное преимущество этого подхода заключается в том, что он обеспечивает более широкое и детальное представление граничных случаев, что позволяет моделям быть более устойчивыми к немногочисленным, но важным для применения ситуациям. ## Выводы Выводы определили, что GRAID — это эффективный метод синтетического пополнения данных для обнаружения вредоносного контента. В будущем, GRAID может быть расширен для поддержки других сценариев, таких как синтез данных для защиты от мошенничества или определения пот

Annotation:

We address the problem of data scarcity in harmful text classification for guardrailing applications and introduce GRAID (Geometric and Reflective AI-Driven Data Augmentation), a novel pipeline that leverages Large Language Models (LLMs) for dataset augmentation. GRAID consists of two stages: (i) generation of geometrically controlled examples using a constrained LLM, and (ii) augmentation through a multi-agentic reflective process that promotes stylistic diversity and uncovers edge cases. This ...

ID: 2508.17057v1 cs.CL, cs.CR, cs.LG

arXiv PDF

📄 AutoBnB-RAG: Enhancing Multi-Agent Incident Response with Retrieval-Augmented Generation

2025-08-20

Авторы:

Zefang Liu, Arman Anwar

## Контекст Активное увеличение числа киберугроз в современном мире привело к необходимости развития эффективных методов реагирования на киберинциденты. Инцидентное реагирование (IR) требует быстрых, координированных и информированных решений для эффективного уменьшения воздействия угроз. Несмотря на то, что бо LLM (большие лингвистические модели) показали себя как автономные агенты в симуляциях IR, их рассуждения часто ограничиваются недостатком внешней информации. Таким образом, необходимо развить методы, позволяющие LLMs доступа к внешней технической информации и историям киберугроз для улучшения решений. ## Метод Мы предлагаем AutoBnB-RAG, расширение AutoBnB-framework, которое включает в себя механизм Retrieval-Augmented Generation (RAG) для многоагентных систем IR. AutoBnB-RAG работает в Backdoors & Breaches (B&B) среде, в которой агенты используют механизм вопросов и ответов для доступа к внешней информации во время симуляций. Мы предлагаем два варианта внешней информации: справочник (RAG-Wiki) и отчеты об инцидентах (RAG-News). Эти механизмы позволяют агентам осуществлять запросы и использовать внешние источники в решении киберугроз. ## Результаты Мы проводили эксперименты в Backdoors & Breaches-среде с 8 различных конфигураций команд, в том числе с новыми аргументативными конфигурациями, стимулирующими критическое мышление. Мы также использовали реальные киберугрозы для проверки работы. Результаты показали, что использование RAG улучшает качество решений и успешность в различных структурах команд. Это демонстрирует значимость интеграции механизмов восстановления информации в многоагентные системы на основе LLMs для улучшения решений в области кибербезопасности. ## Значимость Метод AutoBnB-RAG может быть применен в различных сферах, где требуется быстрая и информированная действительность, таких как безопасность информационных систем, моделирование киберугроз и системы управления безопасностью. Этот подход позволяет повысить эффективность решений, уменьшить время реагирования и улучшить качество решений в кибербезопасности. Будущие исследования будут сфокусированы на расширении возможностей RAG-систем, улучшении точности и объема внешней информации, а также изучении различных типов киберугроз. ## Выводы Мы представили AutoBnB-RAG, расширяющую AutoBnB-framework, и использующую RAG-механизмы для улучшения многоагентных систем IR. Наши эксперименты показали, что RAG может улучшить качество решений и успех в различных структурах команд. Это демонстрирует значимость интеграции внешней и

Annotation:

Incident response (IR) requires fast, coordinated, and well-informed decision-making to contain and mitigate cyber threats. While large language models (LLMs) have shown promise as autonomous agents in simulated IR settings, their reasoning is often limited by a lack of access to external knowledge. In this work, we present AutoBnB-RAG, an extension of the AutoBnB framework that incorporates retrieval-augmented generation (RAG) into multi-agent incident response simulations. Built on the Backdoo...

ID: 2508.13118v1 cs.CL, cs.CR

arXiv PDF

📄 Jailbreaking Commercial Black-Box LLMs with Explicitly Harmful Prompts

2025-08-16

Авторы:

Chiyu Zhang, Lu Zhou, Xiaogang Xu, Jiafei Wu, Liming Fang, Zhe Liu

## Контекст Область исследования связана с jailbreak-атаками на системы с открытым кодом, которые работают с текстовыми запросами. В процессе таких атак атакующий пользователь модифицирует входные запросы, называемые ловушками, для того чтобы привести к подчинению системы скрытым потребностям. Этот процесс может привести к нежелательным последствиям, таким как разглашение конфиденциальной информации или выполнение нежелательных операций. Настоящее исследование затрагивает проблему эффективного оценивания таких атак, когда ловушки не явно вызывают вредоносные поведения. Существующие датасеты и методы могут недостаточно точно оценивать эти ловушки, что приводит к неточностям в оценке эффективности защитных мероприятий. Наше исследование нацелено на создание методологии, которая позволит лучше понять и эффективно протестировать такие ловушки. ## Метод Для решения проблемы оценки таких атак предложена новая методология, которая основывается на совместной работе логики ввода-вывода и широкой группы тестовых ловушек. Методология включает в себя несколько этапов. В первую очередь, мы используем методы оценки, основанные на ИИ, для того чтобы автоматически определять вредоносность в ловушках. Но, чтобы улучшить точность, мы вводим человеческий фактор, который помогает оценивать непонятные случаи. Это делается с помощью гибридной модели, которая объединяет ИИ-анализ с ручным моделированием. Также, мы применяем новые подходы для симуляции контекста и улучшения цепочек мышления, которые позволяют лучше ориентироваться в процессе атаки. ## Результаты Мы провели исследования, используя различные датасеты, а также создали свои собственные ловушки для проверки эффективности наших методов. Результаты показали, что новая методология более точна в определении вредоносных ловушек по сравнению с существующими методами. Мы также установили, что использование специально сформированных пользовательских запросов может значительно увеличить успешность атак. Это предложение подтвердилось с помощью экспериментов, где мы смогли увеличить успешность атаки в несколько раз при помощи специальной тренировки ловушек. ## Значимость Метод, предложенный в настоящем исследовании, имеет широкие применения в области безопасности информационных систем, особенно в тех, которые работают с текстовыми запросами. Он может быть применен для оценки системы безопасности, для поиска уязвимостей и для разработки более эффективных методов защиты. Хорошо сформированные ловушки могут повысить уровень защиты от атак, а также

Annotation:

Evaluating jailbreak attacks is challenging when prompts are not overtly harmful or fail to induce harmful outputs. Unfortunately, many existing red-teaming datasets contain such unsuitable prompts. To evaluate attacks accurately, these datasets need to be assessed and cleaned for maliciousness. However, existing malicious content detection methods rely on either manual annotation, which is labor-intensive, or large language models (LLMs), which have inconsistent accuracy in harmful types. To ba...

ID: 2508.10390v1 cs.CL, cs.CR

arXiv PDF

📄 IAG: Input-aware Backdoor Attack on VLMs for Visual Grounding

2025-08-15

Авторы:

Junxian Li, Beining Xu, Di Zhang

## Контекст Vision-language models (VLMs), такие как CLIP или Flamingo, достигли выдающихся результатов в таких задачах, как визуальное граундинг, где они используются для нахождения конкретных объектов на изображениях по естественному языковому запросу. Однако, несмотря на их эффективность, эти модели остаются чувствительными к атакам, особенно в контексте визуального граундинга. Одна из таких атак — backdoor attack, при которой модель модифицируется таким образом, чтобы при выполнении задачи визуального граундинга классифицировать объект в изображении не в зависимости от конкретного языкового запроса пользователя, а исходя из подкрадываемой невидимой зараженной схемы (trigger). Такие атаки способствуют угрозам, связанным с недоверием к моделям, в том числе в сфере безопасности информации, и требуют дополнительных исследований в области защиты визуальных моделей от таких атак. ## Метод Мы предлагаем вводить новый подход к backdoor attack, который мы назвали IAG (Input-aware Backdoor Attack). Этот метод использует адаптивную генерацию триггеров, которые внедряют семантическую информацию о целевом объекте в исходное изображение. Для этого мы применяем текст-управляемую U-Net, которая позволяет создавать невидимые триггеры, которые затем интегрируются в изображение. Таким образом, визуальное граундинг модели может быть легко изменено на основе триггера. Для обеспечения скрытости атаки мы используем потерю воспроизведения, которая минимизирует различия между атакованным и чистым изображением. Наш подход также включает в себя метод синтеза атакованных данных для тренировки модели с целевой зараженной схемой. Этот подход отличается гибкостью и может быть применен к различным моделям, таким как InternVL, Ferret и LlaVA. ## Результаты Мы провели ряд экспериментов для оценки эффективности IAG. Использовав адаптивные триггеры, мы добились высокой степени успеха в заставлянии модели визуального граундинга классифицировать определенный целевой объект, независимо от того, какой языковой запрос пользователя. Наша модель IAG продемонстрировала очень высокую степень скрытости, чтобы не вызвать подозрения в том, что изображение было заражено, и мы достигли неплохих результатов на специально разработанных тестовых наборах данных. Мы провели как абляционное исследование, так и эксперименты по борьбе с атакой, чтобы продемонстрировать жесткость и надежность IAG. Наши эксперименты показали, что IAG может эффективно атаковать не только малые модели, но и более сложные, такие как LlaVA-1.5-7B. ## Значимость Наш IAG-атака имеет широкое применение в различных обла

Annotation:

Vision-language models (VLMs) have shown significant advancements in tasks such as visual grounding, where they localize specific objects in images based on natural language queries and images. However, security issues in visual grounding tasks for VLMs remain underexplored, especially in the context of backdoor attacks. In this paper, we introduce a novel input-aware backdoor attack method, IAG, designed to manipulate the grounding behavior of VLMs. This attack forces the model to ground a spec...

ID: 2508.09456v1 cs.CV, cs.CL, cs.CR

arXiv PDF

📄 AttnTrace: Attention-based Context Traceback for Long-Context LLMs

2025-08-09

Авторы:

Yanting Wang, Runpeng Geng, Ying Chen, Jinyuan Jia

Длинноконтекстные генеративные модели языка (LLM), такие как Gemini-2.5-Pro и Claude-Sonnet-4, востребованы в системах с использованием знаний, включая технологии RAG и автономные агенты. Их возможность обращаться к контексту для генерирования ответов делает их незаменимыми в различных приложениях, включая анализ после атак, улучшение надёжности и понимания результатов. Однако существующие методы быстрого отслеживания текстов, вдохновивших ответ, часто требуют высоких ресурсов и отнимают много времени. В статье представлен метод AttnTrace, основанный на взвешивании внимания модели LLM для конкретного запроса. AttnTrace использует два принципа улучшения точности и эффективности, обосновываясь теоретическими аргументами. Экспериментальные результаты показывают, что AttnTrace превосходит текущие методы по точности и скорости. Более того, он может улучшить другие методы в обнаружении внедренных инструкций в длинных контекстах, применяя атрибутивный подход до запуска детекции. Примеры реального применения демонстрируют, что AttnTrace может идентифицировать внедренные команды в текстах с целью подделки отзывов. Исходный код доступен на GitHub.

Annotation:

Long-context large language models (LLMs), such as Gemini-2.5-Pro and Claude-Sonnet-4, are increasingly used to empower advanced AI systems, including retrieval-augmented generation (RAG) pipelines and autonomous agents. In these systems, an LLM receives an instruction along with a context--often consisting of texts retrieved from a knowledge database or memory--and generates a response that is contextually grounded by following the instruction. Recent studies have designed solutions to trace ba...

ID: 2508.03793v1 cs.CL, cs.CR

arXiv PDF

📄 Majority Bit-Aware Watermarking For Large Language Models

2025-08-09

Авторы:

Jiahao Xu, Rui Hu, Zikai Zhang

Деплой бо LLM в реальном мире создает риск их недобросовестного использования для генерации вредного или дезориентирующего контента. Watermarking технологии предлагаются как способ проверки подлинности и отслеживания источника. Несмотря на работу по многобитному watermarking, модели страдают от компромисса между текстовой качеством и точностью расшифровки. В этой работе предлагается MajorMark, метод, основывающийся на majority bit-aware encoding. Он позволяет расширить и гибко оптимизировать сеть токенов для сохранения качества текста без ущерба для точности расшифровки. MajorMark$^+$ разбивает текст на блоки для изолированной работы каждого, что далее улучшает качество водяных знаков и расшифровку. Эксперименты показали, что подходы MajorMark и MajorMark$^+$ значительно повышают точность расшифровки и поддерживают высокое качество текста, превосходя современные многобитные watermarking-методы.

Annotation:

The growing deployment of Large Language Models (LLMs) in real-world applications has raised concerns about their potential misuse in generating harmful or deceptive content. To address this issue, watermarking techniques have emerged as a promising solution by embedding identifiable binary messages into generated text for origin verification and misuse tracing. While recent efforts have explored multi-bit watermarking schemes capable of embedding rich information such as user identifiers, they ...

ID: 2508.03829v1 cs.CL, cs.CR

arXiv PDF

📄 Defend LLMs Through Self-Consciousness

2025-08-09

Авторы:

Boshi Huang, Fabio Nonato de Paula

Огромное повышение популярности Large Language Models (LLMs) подвергло их неожиданному риску — подконтрольным атакам, таким как prompt injection. Эти атаки могут привести к непредсказуемым и, в некоторых случаях, вредоносным поведениям моделей. В настоящей работе предлагается новый подход к защите LLMs, основанный на их собственной самосознательности. Метод включает в себя два модуля: Meta-Cognitive и Arbitration. Эти модули позволяют модели оценивать и контролировать свои выводы, не требуя дополнительных внешних систем классификации. На основе двух высококачественных датасетов — AdvBench и Prompt-Injection-Mixed-Techniques-2024 — были проведены эксперименты с семьями LLMs. Результаты показали, что защитный механизм действителен, включая случаи полной или почти полной защиты в режиме Enhanced. Однако появилась компромиссная ситуация между увеличением успешности защиты и требованиями к вычислительным ресурсам. Это решение предлагает эффективную и стоимостно подходящую модель для усиления этичных защит LLMs, особенно в GenAI-средах.

Annotation:

This paper introduces a novel self-consciousness defense mechanism for Large Language Models (LLMs) to combat prompt injection attacks. Unlike traditional approaches that rely on external classifiers, our method leverages the LLM's inherent reasoning capabilities to perform self-protection. We propose a framework that incorporates Meta-Cognitive and Arbitration Modules, enabling LLMs to evaluate and regulate their own outputs autonomously. Our approach is evaluated on seven state-of-the-art LLMs...

ID: 2508.02961v1 cs.AI, cs.CL, cs.CR

arXiv PDF

📄 JPS: Jailbreak Multimodal Large Language Models with Collaborative Visual Perturbation and Textual Steering

2025-08-09

Авторы:

Renmiao Chen, Shiyao Cui, Xuancheng Huang, Chengwei Pan, Victor Shea-Jay Huang, QingLin Zhang, Xuan Ouyang, Zhexin Zhang, Hongning Wang, Minlie Huang

--- title: КОНТЕКСТ И ПРОБЛЕМАТИКА --- ### message ## КОНТЕКСТ И ПРОБЛЕМАТИКА Многомодальные большие языковые модели (MLLMs) становятся все более распространенными в различных приложениях, но их безопасность остается критическим вопросом. Одним из основных угроз являются **jailbreak-атаки**, направленные на обход систем безопасности и фильтров, чтобы получить нецензурные или вредные ответы. Доныне большая часть исследований в этой области сосредоточена на максимизации **attack success rate (ASR)**, то есть успешности обхода фильтров. Однако этот подход часто игнорирует качество самих генерируемых ответов. Даже если атака удается, генерируемые ответы могут не соответствовать настоящей цели атакующего, что приводит к низкому уровню **злонамеренного контента**. Эта проблема особенно актуальна в контексте современных MLLMs, где сочетание текста и изображений требует более глубокого понимания интеграции мультимодальных компонентов. Традиционные методы атак часто используют только текстовые промпты, не используя потенциал визуальных компонентов для улучшения результатов. Недостаток комплексного подхода к оптимизации визуальных и текстовых компонентов приводит к неэффективности атак. Данная работа предлагает решение этой проблемы, представляя метод **JPS** (Jailbreak MLLMs with Collaborative Visual Perturbation and Textual Steering), который интегрирует визуальные и текстовые компоненты для повышения качества и эффективности атак. Целью является не только обход систем безопасности, но и обеспечение высокого уровня соответствия ответов цели атакующего. ## ПРЕДЛОЖЕННЫЙ МЕТОД **JPS** представляет собой инновационный подход, который сочетает **target-guided adversarial image perturbations** (адверасарные визуальные изменения) и **steering prompt** (текстовое направление запроса) в единой координированной стратегии. Алгоритм оптимизирует эти компоненты взаимодействующим образом для максимизации эффективности атаки. 1. **Визуальная компонента**: JPS применяет адверасарные изменения к входящим изображениям, которые направлены на обход систем безопасности MLLMs. Эти изменения генерируются с помощью целевого руководства, что позволяет эффективно манипулировать восприятием модели. 2. **Текстовая компонента**: "Steering prompt" генерируется с помощью многоагентной системы, которая оптимизирует текстовый запрос таким образом, чтобы он руководил генерацией ответа моделью в соответствии с целями атакующего. Два компонента (визуальный и текстовый) проходят процесс **итеративной координированной оптимизации**, что позволяет достичь высокой эффективности атаки. Этот подход отличается от традиционных методов, которые обычно работают только с одним типом компонента. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Для оценки эффективности метода JPS были проведены эксперименты на различных MLLMs и наборах данных. Результаты показывают, что JPS достигает рекордных показателей в **ASR** (Attack Success Rate) и **MIFR** (Malicious Intent Fulfillment Rate) по сравнению с предшествующими методами. 1. **Наборы данных**: Исследование проводилось на различных бенчмарках, включая стандартные датасеты для тестирования MLLMs. 2. **Метрики**: Были использованы две основные метрики: - **ASR**: Мера успешности обхода систем безопасности. - **MIFR**: Новая метрика, оценивающая качество генерируемых ответов с точки зрения выполнения цели атакующего. Она использует Reasoning-LLM для оценки соответствия ответов цели. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Метод JPS имеет значительное практическое применение в области безопасности искусственного интеллекта. Он позволяет оценить уязвимости MLLMs и разработать более надежные методы защиты. Кроме того, JPS может быть использован для: - **Тестирования безопасности MLLMs** в реальных условиях. - **Обнаружения уязвимостей** в существующих системах фильтрации контента. - **Разработке усовершенствованных методов защиты** от атак на мультимодальные модели. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ В работе представлен новый метод **JPS**, который устанавливает новые стандарты в области атак на MLLMs, обеспечивая высокий уровень качества и соответствия цели атакующего. Будущие исследования могут фокусироваться на улучшении методов защиты MLLMs, а также на разработке новых метрик для оценки качества генерируемых ответов. Кроме того, дальнейшее исследование может включать в себя исследование других мультимодальных компонентов, таких как видео и аудио, для создания более комплексных методов атак и защиты.

Annotation:

Jailbreak attacks against multimodal large language Models (MLLMs) are a significant research focus. Current research predominantly focuses on maximizing attack success rate (ASR), often overlooking whether the generated responses actually fulfill the attacker's malicious intent. This oversight frequently leads to low-quality outputs that bypass safety filters but lack substantial harmful content. To address this gap, we propose JPS, \underline{J}ailbreak MLLMs with collaborative visual \underli...

ID: 2508.05087v1 cs.MM, cs.AI, cs.CL, cs.CR, I.2.7; K.4.1; K.6.5

arXiv PDF

Показано 51 - 60 из 60 записей