📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня
Авторы:

Anusha Sinha, Keltin Grimes, James Lucassen, Michael Feffer, Nathan VanHoudnos, Zhiwei Steven Wu, Hoda Heidari

## Контекст В настоящее время искусственный интеллект (AI) внедряется во многие аспекты бизнеса и технологий, что приводит к увеличению уязвимостей и рисков для систем. Угрозы, связанные с AI, отличаются от традиционных угроз, так как AI-системы обладают уникальными характеристиками, такими как нелинейные непредсказуемые поведения, новые формы уязвимости и отсутствие традиционных методов обнаружения и патчей. Эти особенности требуют новых подходов к обеспечению безопасности. Рынок требует эффективных стратегий для оценки и тестирования AI-систем, которые могут противостоять новым типам рисков. Одним из таких подходов является **AI Red-Teaming**, но этот подход должен быть развит в рамках конкретной области, чтобы обеспечить практическую эффективность и устойчивость к новым угрозам. ## Метод **AI Red-Teaming** предполагает имитацию атак воровствующими субъектами (red team), чтобы выявить уязвимости и потенциальные моменты сбоя в AI-системах. Методология включает в себя три главных компонента: 1. **Эмуляция реального атакующего поведения**: AI Red Teams используют специальные инструменты, такие как машинное обучение, искусственный интеллект и симуляции, чтобы эмулировать рискованное поведение, которое могут проявить злоумышленники. 2. **Интеграция новых техник**: Этот подход включает интеграцию современных методов тестирования, таких как fuzzing, моделирование и анализ угроз, чтобы выявить нестандартные уязвимости в AI-системах. 3. **Правила сотрудничества**: Регламентированные правила определяют ограничения, обеспечивающие безопасность и эффективность этих тестов в реальных системах. Кроме того, AI Red-Teaming включает подходы к разработке и тестированию средств, которые позволяют провести продолжительные и четко определенные тестирования в AI-системах. ## Результаты **Эксперименты** были проведены на различных AI-системах, в том числе в системах обработки естественного языка, системах обнаружения поддельности и изображений. Использовались данные, полученные из тренировочных ситуаций и реальных бизнес-систем. **Полученные результаты** показали, что AI Red-Teaming может выявить сложные уязвимости, которые не были определены с помощью традиционных методов. Например, AI Red-Teaming выявил неожиданные недочеты в системах обнаружения поддельности, которые были недоступны для традиционных тестов. На основе этих результатов было показано, что AI Red-Teaming позволяет обнаружить новые типы уязвимостей, которые могут быть использованы в атаках. ## Значимость **Приложение AI Red-Teaming** можно обосновать в различных сферах, включа
Annotation:
A red team simulates adversary attacks to help defenders find effective strategies to defend their systems in a real-world operational setting. As more enterprise systems adopt AI, red-teaming will need to evolve to address the unique vulnerabilities and risks posed by AI systems. We take the position that AI systems can be more effectively red-teamed if AI red-teaming is recognized as a domain-specific evolution of cyber red-teaming. Specifically, we argue that existing Cyber Red Teams who adop...
ID: 2509.11398v1 cs.LG, cs.AI, cs.CR
Авторы:

Muhammad H. Ashiq, Peter Triantafillou, Hung Yun Tseng, Grigoris G. Chrysos

## Контекст Область исследований связана с проблемами защиты конфиденциальности данных в обучении машинных моделей. Несмотря на то, что методы unlearning предназначены для удаления влияния конкретных данных из модели, текущие подходы часто оставляют модель открытой для атак адверсарных агентов. Таких атак легко могут воспользоваться злоумышленники, используя высокую уверенность модели в предсказаниях для защищенных данных, даже после unlearning. Эта проблема называется **test-time privacy**. Она относится к ситуациям, когда модель, несмотря на unlearning, продолжает давать высокоуверенные, но неверные предсказания на нежелательных входных данных. Наша мотивация заключается в создании метода, который не только уберет влияние защищенных данных, но и искусственно усилит неопределенность модели для таких входных данных. ## Метод Мы предлагаем алгоритм, который изменяет веса модели для создания максимальной неопределенности в отношении защищенных данных. Основная идея заключается в использовании **Pareto-оптимального подхода**, который сбалансированно оптимизирует две цели: 1. **Предсказательная точность** для всех остальных данных, кроме защищенных. 2. **Неопределенность** для защищенных данных, чтобы атаки на основе высокой уверенности были неэффективны. Мы также предлагаем **сертифицируемую аппроксимацию** для обеспечения $(\varepsilon, \delta)$-защиты, даже если подход не является конвексиантным. Наш подход характеризуется узкой теоретической характеристикой, которая рассматривает торговую оферту между защитой (privacy) и точностью предсказаний (utility). ## Результаты Мы проверили наш алгоритм на нескольких изображениях и recognition бенчмарках. Результаты показали, что: - Модель сохраняет более $98\%$ точности на всех данных, кроме защищенных, что является стандартным подходом в таких задачах. - **Прирост неопределенности** в отношении защищенных данных вышел в 3 раза дальше, чем у "базового" подхода (pretraining). - Наши результаты подтвердили, что модель предсказывает на защищенных данных с высокой долей неверных ответов, что снижает возможность атак адверсарных агентов. ## Значимость **Применение** нашего подхода может распространяться в ситуациях, где важно **защитить конфиденциальность отдельных пользователей**, например, в задачах медицинского анализа данных, частной информации или обработки данных финансового характера. **Преимущества** подхода заключаются в том, что он не только обеспечивает защиту от тестирующих атак, но также сохраняет качество предсказаний на остальных данных. Это делает его более универсальным в сравнении с конкурирующими способами. **Влияние** на области искусств
Annotation:
Unlearning is the predominant method for removing the influence of data in machine learning models. However, even after unlearning, models often continue to produce the same predictions on the unlearned data with high confidence. This persistent behavior can be exploited by adversaries using confident model predictions on incorrect or obsolete data to harm users. We call this threat model, which unlearning fails to protect against, *test-time privacy*. In particular, an adversary with full model...
ID: 2509.11625v1 cs.LG, cs.AI, cs.CR
Авторы:

James C. Ward, Alex Bott, Connor York, Edmund R. Hunt

## Контекст Обеспечение безопасности физических автоматизированных систем является ключевым аспектом в современной информационной безопасности. Несанкционированный доступ к таким системам может привести к серьезным последствиям, включая утечку конфиденциальных данных и угрозы безопасности людей. Одна из самых выгодных подходов к исследованию уязвимостей - симуляция атак злоумышленника с использованием искусственного интеллекта. Такие исследования позволяют протестировать систему на прочность и сформировать понимание того, какие меры необходимо принять для улучшения ее безопасности. В данном исследовании мы сосредоточились на системе многороботного охранения, которая широко используется для защиты критически важных объектов. ## Метод Мы предлагаем новую модель времени ограниченного злоумышленника, основанную на машинном обучении, для атаки многороботной системы охраны. Модель использует нейронные сети для моделирования поведения злоумышленника, который пытается проникнуть в защищенную зону, основываясь на наблюдениях поведения охранных роботов. Методом градиентного спуска мы оптимизируем решения злоумышленника, чтобы максимизировать его шансы проникновения в срок, ограниченный временно. Эта модель включает в себя несколько улучшений по сравнению с предыдущими подходами, включая более точное моделирование сложности ограниченного времени для поиска кратчайшего пути к цели. Мы также проводили эксперименты на реальных данных, сравнивая нашу модель с другими подходами. ## Результаты Наши эксперименты показали, что модель времени ограниченного злоумышленника существенно превосходит существующие базовые подходы в ситуациях, когда злоумышленник имеет ограниченное время для проникновения. Мы проверили нашу модель на трех разных стратегиях многороботного охранения, включая стратегии, основанные на классических алгоритмах и сетях графов. Наши результаты показали, что злоумышленник смог быстрее и эффективнее проникнуть в систему по сравнению с другими моделями. Также мы выявили, что наш подход требует меньшего количества итераций для достижения оптимального решения, что ускоряет процесс экспериментов. ## Значимость Модель времени ограниченного злоумышленника может применяться в различных областях, где необходимо проверить уязвимость физических систем, таких как безопасность производственных цехов, защита границ, или безопасность общественных пространств. Этот подход позволяет протестировать систему безопасности в условиях реального времени, что дает более точный взгляд на ее уязвимости. В случае мно
Annotation:
Simulating hostile attacks of physical autonomous systems can be a useful tool to examine their robustness to attack and inform vulnerability-aware design. In this work, we examine this through the lens of multi-robot patrol, by presenting a machine learning-based adversary model that observes robot patrol behavior in order to attempt to gain undetected access to a secure environment within a limited time duration. Such a model allows for evaluation of a patrol system against a realistic potenti...
ID: 2509.11971v1 cs.RO, cs.AI, cs.CR
Авторы:

Qinnan Hu, Yuntao Wang, Yuan Gao, Zhou Su, Linkang Du

## Контекст В нынешней цифровой эпохе, когда autonomous agents (автономные агенты) во всех профилях деятельности приобретают все большую роль, становится важной проблемой обеспечения взаимодействия между ними. Эти агенты, основанные на large language models (LLMs), могут оказывать свое влияние в сферах, таких как финансы, здравоохранение, и смарт-индустрии. Однако, несмотря на эти возможности, их поведение может оказаться непредсказуемым, а функциональные характеристики — разные. Это приводит к вызовам в области регулирования, управления и обеспечения ответственности. Наша мотивация заключается в разработке системы, которая обеспечит безопасное, доверительное и эффективное взаимодействие агентов в распределенных технологических средах. ## Метод Для решения этой проблемы мы предлагаем блокчейн-enabled layered architecture (архитектуру слоев с использованием блокчейна). Эта архитектура состоит из трех ключевых слоев: (i) **agent layer** (слой агентов), который обеспечивает взаимодействие агентов; (ii) **blockchain data layer** (слой данных блокчейна), который гарантирует целостность и безопасность данных; (iii) **regulatory application layer** (слой приложений регулирования), который предоставляет средства для регулирования и управления. В каждом из этих слоев мы разрабатываем специальные модули: (i) **agent behavior tracing and arbitration module** (модуль для анализа поведения и разрешения споров), (ii) **dynamic reputation evaluation module** (модуль динамической оценки репутации), и (iii) **malicious behavior forecasting module** (модуль для прогнозирования злонамеренного поведения). ## Результаты Мы провели эксперименты, используя данные, полученные из реальных сценариев во взаимодействии агентов. Модуль **agent behavior tracing and arbitration module** позволил выявить и анализировать поведение агентов, установить ответственность за произошедшее. **Dynamic reputation evaluation module** стал ключевым элементом для оценки доверия во взаимодействии между агентами. Наконец, **malicious behavior forecasting module** продемонстрировал способность предсказать и предотвратить злонамеренное поведение. Эти результаты показали, что наша архитектура обеспечивает защиту от ошибок, злоупотреблений и угроз безопасности, способствуя устойчивости и эффективности взаимодействия. ## Значимость Наша разработка может быть применена в различных областях, таких как финансовые услуги, здравоохранение, и смарт-индустрии. Она защищает от угроз безопасности, обеспечивает доверие между агентами и повышает эффективность регулирования. Эта система дает преимущества в отношении гибкости, скорости реакции и надежности в многоагентных системах. Потенциальное влияние заключается в том, что она может стать основой для развития безопасных и управляемых цифровых экосистем.
Annotation:
Large language models (LLMs)-empowered autonomous agents are transforming both digital and physical environments by enabling adaptive, multi-agent collaboration. While these agents offer significant opportunities across domains such as finance, healthcare, and smart manufacturing, their unpredictable behaviors and heterogeneous capabilities pose substantial governance and accountability challenges. In this paper, we propose a blockchain-enabled layered architecture for regulatory agent collabora...
ID: 2509.09215v1 cs.AI, cs.CR
Авторы:

Matan Avitan, Moran Baruch, Nir Drucker, Itamar Zimerman, Yoav Goldberg

## Контекст Появление больших языковых моделей (LLM) перевёл модели глубокого обучения в новый уровень, внедряя их в различные приложения, связанные с обработкой текста. Однако использование этих моделей для обработки чувствительных данных на недоверенных серверах создаёт серьёзные проблемы с приватностью. Хомоморфная шифрования (HE) предлагает возможность выполнять вычисления над зашифрованными данными, обеспечивая при этом безопасность информации. Тем не менее, декодирование выходных данных моделей (например, выборка слов с максимальной вероятностью) требует подходов, которые не являются полиномиальными и требуют больших вычислительных ресурсов при работе с зашифрованными данными. Это ставит под угрозу эффективность и применимость LLMs в приватных сценариях. ## Метод Для решения проблемы эффективного декодирования LLMs в зашифрованном режиме, авторы предлагают два новые метода: 1. **cutmax** — это алгоритм argmax, оптимизированный для шифрования. Он снижает количество операций с шифрованными данными по сравнению с предыдущими методами, что позволяет выполнять аргмакс-декодирование в рамках приватных сценариев. 2. **HE-compatible nucleus sampling** — первый метод, позволяющий проводить стохастическое декодирование (включая метод top-p) с помощью шифрования. Он основан на cutmax и обеспечивает эффективное выполнение стохастических операций, сохраняя при этом приватность данных. Оба метода являются полиномиальными, что делает их пригодными для практического использования в приложениях, где требуется не только безопасность, но и высокая производительность. ## Результаты Авторы проводили эксперименты, сравнивая свои методы с базовыми. Они использовали реальные выходные данные LLMs и эффективность методов оценивали по времени и ресурсам, необходимым для выполнения декодирования. - **cutmax** позволил сократить затраты на вычисления в 24-35 раз по сравнению с существующими подходами. - **HE-compatible nucleus sampling** показал эффективный подход к стохастическому декодированию, обеспечивая сходимость и приватность. Эти результаты демонстрируют значительное улучшение производительности в сценариях, где требуется работа с зашифрованными данными. ## Значимость Разработанные методы имеют широкие области применения, включая обеспечение приватности в системах удаленного распознавания речи, генерирования текста и других приложениях, требующих обработки чувствительных данных. Они обеспечивают: - Эффективное декодирование, даже при использовании шифрования. - Улучшение производительности, что позволяет использовать модели в реальном времени. - Гарантии приватности, необходи
Annotation:
Large language models (LLMs) power modern AI applications, but processing sensitive data on untrusted servers raises privacy concerns. Homomorphic encryption (HE) enables computation on encrypted data for secure inference. However, neural text generation requires decoding methods like argmax and sampling, which are non-polynomial and thus computationally expensive under encryption, creating a significant performance bottleneck. We introduce cutmax, an HE-friendly argmax algorithm that reduces ci...
ID: 2509.08383v1 cs.LG, cs.AI, cs.CR
Авторы:

Fanzhen Liu, Alsharif Abuadbba, Kristen Moore, Surya Nepal, Cecile Paris, Jia Wu, Jian Yang, Quan Z. Sheng

#### Контекст Информационное пространство сегодня становится все более тесно связано с проблемой распространения недостоверной информации. Факт-чеккинг (FC) является ключевым инструментом для проверки утверждений и формирования доверия к информационным источникам. Развитие автоматизированных систем FC (AFC) позволило обрабатывать большие объемы данных и ускорить процесс проверки. Однако эти системы остаются уязвимы к адверсарским атакам, которые могут манипулировать данными, генерировать ложные утверждения или изменять ключевые элементы, такие как факты и соотношения между ними. Такие атаки не только подрывают достоверность факт-чеккинга, но и могут исказить решения в критических областях, включая политику, здравоохранение и финансы. Несмотря на рост интереса к этим проблемам, существует недостаток в полной обзорной работе, которая бы рассматривала все аспекты адверсарских атак против AFC. #### Метод Данная работа основывается на методологическом анализе существующих исследований и технических решений в области адверсарских атак против автоматизированных систем FC. Авторы исследуют различные методы атак, включая генерирование поддельных утверждений, изменение фактов и манипуляции с взаимосвязью между фактами и доказательствами. Основной архитектурой рассматриваются модели FC, а также методы их оценки на устойчивость к атакам. Были проанализированы существующие методы защиты, включая адверсарские-сознательные модели, и изучены их эффективность. #### Результаты Проведенные эксперименты показали, что адверсарские атаки могут существенно снизить точность и достоверность FC-систем. В частности, было проверено, что модели, не приготовленные к таким атакам, ведут себя неустойчиво при внедрении манипулирования в входные данные. Использованы различные данные, в том числе текстовые источники и специальные базы данных для создания атак. Результаты показали, что некоторые модели подвержены высокой уязвимости, в то время как другие могут поддерживать достаточную устойчивость при определенных условиях. #### Значимость Полученные результаты имеют значительное значение в развитии надежных систем FC. Они могут быть применены в сферах, где достоверная информация важна для принятия решений — например, в новостях, здравоохранении, финансовых рынках. Исследование открытых проблем, таких как улучшение методов обнаружения и предотвращения атак, может способствовать созданию более устойчивых моделей. Также, этот обзор помогает выделить потенциальные направления исследований в области
Annotation:
In an era where misinformation spreads freely, fact-checking (FC) plays a crucial role in verifying claims and promoting reliable information. While automated fact-checking (AFC) has advanced significantly, existing systems remain vulnerable to adversarial attacks that manipulate or generate claims, evidence, or claim-evidence pairs. These attacks can distort the truth, mislead decision-makers, and ultimately undermine the reliability of FC models. Despite growing research interest in adversaria...
ID: 2509.08463v1 cs.CL, cs.AI, cs.CR
Авторы:

Felix Mächtle, Nils Loose, Jan-Niclas Serr, Jonas Sander, Thomas Eisenbarth

#### Контекст Symbolic execution является важной техникой для проверки программ, позволяющей изучать различные пути выполнения программы, используя символьные значения в качестве входных данных. Однако, эта техника сталкивается с ограничениями при столкновении с внешними функциями, такими как собственные методы или библиотеки, которые не входят в базовую программу. Традиционные методы прибегают к дополнительному контексту, дорогостоящим SMT-решателям или ручным вмешательствам, чтобы описать эти функции с помощью символьных макетов. Это создает проблемы в ситуациях, когда требуется автоматизированный подход для обхода этих ограничений. Мы предлагаем новую методику, которая автоматически генерирует символьные макеты для внешних функций во время символьного выполнения, используя генетическое программирование. #### Метод Метод AutoStub включает в себя несколько основных этапов. Когда символьный выполнятель сталкивается с внешней функцией, AutoStub начинает генерировать тренировочные данные, выполняя функцию на случайно сгенерированных входных значениях и записывая результаты. Затем, генетическое программирование использует эти данные для вывода выражений, которые приближаются к поведению функции. Эти выражения являются символьными макетами, которые могут быть использованы в символьном выполнении, не требуя дополнительных усилий от человека. Этот подход позволяет улучшить процесс тестирования, обойдя ограничения, связанные с внешними функциями. #### Результаты Мы провели ряд экспериментов, используя различные программные системы, чтобы оценить эффективность AutoStub. Наши результаты показали, что метод способен аппроксимировать внешние функции с точностью более 90% для 55% оценок, и может выявлять специфичные для языка функции, которые могут вызывать серьезные ошибки во время тестирования. Помимо этого, мы проверили, насколько эти символьные макеты позволяют расширить область программных путей для тестирования и повысить точность выявления ошибок. #### Значимость AutoStub может быть применен в различных сферах, где требуется автоматизированное тестирование программного обеспечения, включая безопасность, проверку соответствия стандартам и отладку. Основное преимущество заключается в том, что он упрощает процесс тестирования, уменьшая необходимость вручную создавать макеты, что может быть очень времязатратным и неточным. Этот подход также может обнаруживать скрытые ошибки и edge cases, которые в противном случае оставались бы незамеченными. Мы предлагаем, что развитие таких автоматизированных методов может привести к значительным улучшениям
Annotation:
Symbolic execution is a powerful technique for software testing, but suffers from limitations when encountering external functions, such as native methods or third-party libraries. Existing solutions often require additional context, expensive SMT solvers, or manual intervention to approximate these functions through symbolic stubs. In this work, we propose a novel approach to automatically generate symbolic stubs for external functions during symbolic execution that leverages Genetic Programmin...
ID: 2509.08524v1 cs.SE, cs.AI, cs.CR
Авторы:

Jeongmin Yu, Susang Kim, Kisu Lee, Taekyoung Kwon, Won-Yong Shin, Ha Young Kim

## Контекст Face anti-spoofing (FAS) — критическая задача в области безопасности и аутентификации, которая стремится отличить настоящие лица от имитаций. Несмотря на развитие методов FAS, остаются существенные проблемы, такие как недостаток общедоступных данных, ограниченная универсальность и трудность обнаружения сложных механизмов спуфинга. Недавние работы используют языковые модели, такие как CLIP, для улучшения generalization и обнаружения кросс-доменных задач. Однако, существующие решения не полностью используют возможности CLIP, особенно в выделении ключевых признаков спуфинга. Поэтому, необходимо развитие методов, которые бы улучшили качество обнаружения спуфинга, обеспечили кросс-доменную универсальность и повысили обобщаемость. ## Метод Мы предлагаем MVP-FAS — новую архитектуру, включающую два модуля: Multi-View Slot Attention (MVS) и Multi-Text Patch Alignment (MTPA). **MVS** применяет клоны CLIP для выделения локальных детальных признаков и глобального контекста. Он использует несколько парафразированных текстов, таких как "live" и "fake", для улучшения обнаружения ключевых признаков. **MTPA** выравнивает патчи с разными представлениями текста, что позволяет повысить устойчивость и общий контекст. Эти модули работают вместе для оптимального представления и обнаружения. Мы также используем трансформерские модели для объединения этих представлений. ## Результаты Мы проводили эксперименты на нескольких кросс-доменных датасетах, таких как OULU-NPU и SiW. Модель MVP-FAS показала высокую точность и общую универсальность в сравнении с предыдущими стандартными подходами. Мы также проверяли ее на разных типах спуфинга, и она показала значительное улучшение в обнаружении трудных спуфингов. Модель также показала модульность и устойчивость к ошибкам. ## Значимость Модель MVP-FAS может быть применена в различных областях безопасности, таких как банковские системы, доступ к устройствам и системы аутентификации. Это решение превосходит предыдущие подходы в обнаружении кросс-доменных задач, обеспечивая более точное и устойчивое обнаружение. Улучшение в кросс-доменной обобщаемости делает MVP-FAS более полезной для реализации в реальных условиях. ## Выводы Мы представили MVP-FAS, модель, которая улучшила обнаружение спуфинга с помощью новых модулей MVS и MTPA. Мы демонстрируем ее высокую точность и общую обобщаемость в кросс-доменных сценариях. В дальнейшем, мы планируем расширить модель для работы с более сложными видами спуфинга и исследовать ее возможности в других задачах, таких как текстово-визуальные модели.
Annotation:
Recent face anti-spoofing (FAS) methods have shown remarkable cross-domain performance by employing vision-language models like CLIP. However, existing CLIP-based FAS models do not fully exploit CLIP's patch embedding tokens, failing to detect critical spoofing clues. Moreover, these models rely on a single text prompt per class (e.g., 'live' or 'fake'), which limits generalization. To address these issues, we propose MVP-FAS, a novel framework incorporating two key modules: Multi-View Slot atte...
ID: 2509.06336v1 cs.CV, cs.AI, cs.CR
Авторы:

Junjie Mu, Zonghao Ying, Zhekui Fan, Zonglei Jing, Yaoyuan Zhang, Zhengmin Yu, Wenxin Zhang, Quanchen Zou, Xiangzheng Zhang

#### Контекст Large Language Models (LLMs) являются мощными инструментами, используемыми в различных приложениях, от разработки контента до автоматизации бизнес-процессов. Однако их прочность может быть ослаблена методами злоупотребления, например, jailbreak-атаками. Эти атаки заставляют модели генерировать нежелательные или опасные ответы, тем самым уязвимости, которые они должны избегать. Одним из эффективных методов для создания таких атак является Greedy Coordinate Gradient (GCG), который оптимизирует токены в суффиксе промпта, чтобы добиться jailbreak-атаки. Несмотря на его эффективность, возникает вопрос о необходимости всех токенов в промпте. #### Метод Mask-GCG является расширением GCG, использующим плагиновую архитектуру с learnable token masking. Эта маска позволяет выделить токены с высоким влиянием на результат атаки, при этом низкого влияния токены могут быть удалены с минимального влияния на атаку. Это снижает необходимую вычислительную сложность и уменьшает размер градиентного пространства. Этот подход можно плагиново применять к оригинальной GCG, а также к другим вариантам GCG, чтобы проверить эффективность. Метод использует данные, включающие различные jailbreak-атаки и их результаты, чтобы проверить эффективность Mask-GCG. #### Результаты В экспериментах показано, что большинство токенов в суффиксе играют ключевую роль в успешности атаки. Однако прекращение использования незначительных токенов не приводит к потере успешности атаки, указывая на то, что многие токены не используются эффективно. Это подтверждает, что значительная часть токенов в суффиксе является избыточной. Это позволяет значительно сократить время, необходимое для успешного jailbreak-атаки, и уменьшить вычислительные затраты по сравнению с GCG. #### Значимость Метод Mask-GCG может быть применен в различных областях, где LLMs используются для защиты от злоупотребления. Он указывает на необходимость улучшения методов защиты от jailbreak-атак с учетом токенов в суффиксе. Это также открывает новые пути для разработки более эффективных и интерпретируемых моделей, которые могут быть реализованы в широком кругу приложений, включая NLP, безопасность и управление данными. #### Выводы Mask-GCG доказывает, что промпты jailbreak-атак могут быть эффективными, но при этом содержат значительную избыточность. Это решение позволяет оптимизировать промпты, уменьшая вычислительные затраты и увеличивая прозрачность атак. Наиболее важными направлениями будущих исследований являются расширение метода Mask-GCG на другие модели и улучшение его применения в реальных ситуациях для более эффективной защиты LLMs от злоупот
Annotation:
Jailbreak attacks on Large Language Models (LLMs) have demonstrated various successful methods whereby attackers manipulate models into generating harmful responses that they are designed to avoid. Among these, Greedy Coordinate Gradient (GCG) has emerged as a general and effective approach that optimizes the tokens in a suffix to generate jailbreakable prompts. While several improved variants of GCG have been proposed, they all rely on fixed-length suffixes. However, the potential redundancy wi...
ID: 2509.06350v1 cs.CL, cs.AI, cs.CR
Авторы:

Jack Wilkie, Hanan Hindy, Christos Tachtatzis, Robert Atkinson

#### Контекст Сетевое обнаружение вторжений является критически важной задачей в области цифровой безопасности. Несмотря на то что модели машинного обучения, обученные с учителем, достигли высокого уровня производительности, их зависимость от больших массивов меток данных делает их неудобными для применения в многих реальных ситуациях. Методы аномалийного обнаружения, которые работают только с безопасным трафиком, часто страдают от высокого числа ложных срабатываний, что ограничивает их эффективность в применении. Недавно, самостоятельное обучение (self-supervised learning) продемонстрировало повышение качества работы при помощи снижения числа ложных срабатываний. Особенно заметные результаты показали модели самостоятельного обучения, основанные на контрастном самостоятельном обучении, которые уменьшают расстояние между похожими (положительными) представлениями безопасного трафика и, наоборот, увеличивают расстояние между разными (или отрицательными) представлениями. Однако существующие подходы генерируют положительные представления с помощью методов аугментации данных, а отрицательные представления определяются как другие сэмплы, не являющиеся положительными. В данной работе предлагается метод Contrastive Learning using Augmented Negative pairs (CLAN), где отрицательными представлениями являются генерируемые с помощью аугментации данных, а положительными являются другие безопасные сэмплы. Этот подход улучшает как точность классификации, так и эффективность работы модели после предобучения на безопасном трафике. #### Метод В предложенной работе используется архитектура самостоятельного обучения, основанная на контрастном методе обучения. Для получения положительных представлений данные безопасного трафика аугментируются, в то время как отрицательными представлениями служат генерируемые данные, аугментированные методами самостоятельного обучения. Это позволяет модели не только выучивать различия между положительными и отрицательными представлениями, но и улучшать их интерпретацию. Метод CLAN использует контрастную функцию в форме оптимизации потерь, чтобы минимизировать расстояние между положительными представлениями и максимизировать расстояние между отрицательными. Эта модель обучается на большом массиве данных безопасного трафика для получения высококачественных внутренних представлений, а затем переобучается на меньшем массиве меток данных для совершенствования классификации. #### Результаты В экспериментах использовались данные Lycos2017, которые содержат меток для обнаружения сетевых вторжений. Результаты показали, что предложенный подход CLAN при предобучении на безопасных данных показал значительно
Annotation:
Network intrusion detection remains a critical challenge in cybersecurity. While supervised machine learning models achieve state-of-the-art performance, their reliance on large labelled datasets makes them impractical for many real-world applications. Anomaly detection methods, which train exclusively on benign traffic to identify malicious activity, suffer from high false positive rates, limiting their usability. Recently, self-supervised learning techniques have demonstrated improved performa...
ID: 2509.06550v1 cs.LG, cs.AI, cs.CR, cs.NI, I.2.6; K.6.5
Показано 111 - 120 из 162 записей