📚 Саммари научных статей из arXiv

Найдено 470 результатов по запросу 'cs.CR, cs.AI' Сбросить поиск

📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 Can AI Keep a Secret? Contextual Integrity Verification: A Provable Security Architecture for LLMs

2025-08-15

Авторы:

Aayush Gupta

## Контекст Large language models (LLMs) являются мощными инструментами для обработки естественного языка, но остаются чрезвычайно уязвимыми для атак, таких как проникновение с помощью принудительной инъекции промптов (prompt injection). Такие атаки позволяют злоумышленникам обходить безопасность моделей, используя контрольные простыни, вирусы текста и другие хитрости. Несмотря на развитие графических пользовательских интерфейсов и настройки гибридных моделей, эти угрозы не устранены. Одной из главных проблем является недостаток верификации контекста, что приводит к нежелательным побочным эффектам. Мотивирует это значительное злоупотребление подобными уязвимостями в различных сферах, от кибербезопасности до безопасности частных данных. Целью данного исследования является разработка проблемно-ориентированной безопасной архитектуры, которая может защищаться от таких атак, обеспечивая высокую прозрачность и неинтерферентность. ## Метод Методология применяемой в работе основывается на применении архитектуры **Contextual Integrity Verification (CIV)**, которая внедряет криптографически подписанные метки происхождения в каждый токен предоставляемых данных. В качестве дополнительного уровня защиты вводится **source-trust lattice** — механизм, который применяет источниковую трассировку токенов, используя твердые градиенты в маске пропускания токена (включая возможность включения FFN/residual gating). Это позволяет определять и отсекать токены, которые могут быть использованы для нежелательных атак. Архитектура CIV работает в режиме **inference-time**, чтобы не требовать переобучения моделей. Она является дополнительным модулем, который может быть применен к уже примененным моделям без необходимости тщательного тюнинга. ## Результаты Для оценки эффективности CIV были проведены эксперименты с использованием данных, основанных на текущих тезаурусах проникающих атак (Elite-Attack и SoK-246). Исследования показали, что CIV достигает 0% успеха атак в указанном технологическом моделе, сохраняя 93,1% токенного размера. Это означает, что модель может защищаться от хитрых принудительных атак, не теряя качества соответствия благонадёжному тексту. Кроме того, CIV не вызывает существенного замедления выполнения модели, за счет легковесного характера технологии. Мы также продемонстрировали примеры защиты с помощью LLama-3-8B и Mistral-7B, которые были защищены без нужды в тюнинге или переобучении. ## Значимость Разработанная архитектура CIV может быть применена в различных сферах, где необходима защита от нежелательных атак на модели ИИ. Области, в которых CIV может иметь преимущества, включают бе

Annotation:

Large language models (LLMs) remain acutely vulnerable to prompt injection and related jailbreak attacks; heuristic guardrails (rules, filters, LLM judges) are routinely bypassed. We present Contextual Integrity Verification (CIV), an inference-time security architecture that attaches cryptographically signed provenance labels to every token and enforces a source-trust lattice inside the transformer via a pre-softmax hard attention mask (with optional FFN/residual gating). CIV provides determini...

ID: 2508.09288v1 cs.CR, cs.AI, cs.CL, 68T07, 94A60, D.4.6; K.6.5; E.3; I.2.6; I.2.7

arXiv PDF

📄 Shadow in the Cache: Unveiling and Mitigating Privacy Risks of KV-cache in LLM Inference

2025-08-15

Авторы:

Zhifan Luo, Shuo Shao, Su Zhang, Lijing Zhou, Yuke Hu, Chenxu Zhao, Zhihao Liu, Zhan Qin

## Контекст Large Language Models (LLMs) стали ключевыми инструментами для решения различных задач, включая генерацию текста, синтез кода и анализ данных. Одной из основных оптимизаций, позволяющих увеличить эффективность их интерпретации, является использование Key-Value (KV) cache. Этот механизм хранит intermediate attention computations, что позволяет избежать повторных вычислений и ускорить процесс. Однако, несмотря на свою полезность, KV-cache создает недооцененные вопросы безопасности и конфиденциальности. Например, он может хранить конфиденциальные данные пользователя, которые впоследствии могут быть использованы в незаконных целях. В настоящее время существуют недостатки в анализе и стратегиях защиты этого критического компонента. Этот новый исследование направлено на изучение существующих проблем и разработку эффективных методов защиты. ## Метод Методология исследования состоит из нескольких этапов. В первую очередь, авторы проанализировали архитектуру KV-cache и установили, что она может содержать конфиденциальные данные, которые могут быть подвержены атакам. Затем они разработали три уникальных вектора атаки: **Direct Inversion Attack**, **Collision Attack** и **Injection Attack**. Эти атаки используют разные подходы для извлечения информации из KV-cache. Для защиты, авторы предложили KV-Cloak — новую защитную схему, которая основывается на reversible matrix-based obfuscation и operator fusion. Они также описали алгоритмы реализации и меры, использованные для оценки эффективности защиты. ## Результаты На экспериментальных данных показано, что атаки способны восстановить сентиментные данные из KV-cache с высокой точностью. Например, в Direct Inversion Attack, атакующий может восстановить конкретные фрагменты текста, использованные в интерпретации. Collision Attack позволяет атакующему угадывать взаимосвязи между разными данными. Injection Attack добавляет злонамеренные данные в KV-cache, что повлияет на последующие вычисления. Однако при использовании KV-Cloak эти атаки оказались ненадежными: восстановленная информация становится непонятной и бессмысленной, а результаты модели остаются почти неизменными. Эти результаты подтверждают эффективность KV-Cloak в сочетании с минимальным ущербным эффектом на производительность и модельный accuracy. ## Значимость Результаты имеют большое значение в сферах, где защита конфиденциальных данных является критически важной. KV-Cloak может быть применен в области конфиденциальных текстовых моделей, медицинского анализа и других приложениях, где конфиденциальность является первостепенной задачей. Ключевым преимуществом является то, что он обеспечивает высокую защиту без существенного снижения производительности и точности. Это

Annotation:

The Key-Value (KV) cache, which stores intermediate attention computations (Key and Value pairs) to avoid redundant calculations, is a fundamental mechanism for accelerating Large Language Model (LLM) inference. However, this efficiency optimization introduces significant yet underexplored privacy risks. This paper provides the first comprehensive analysis of these vulnerabilities, demonstrating that an attacker can reconstruct sensitive user inputs directly from the KV-cache. We design and impl...

ID: 2508.09442v1 cs.CR, cs.AI, cs.CL

arXiv PDF

📄 Demystifying the Role of Rule-based Detection in AI Systems for Windows Malware Detection

2025-08-15

Авторы:

Andrea Ponte, Luca Demetrio, Luca Oneto, Ivan Tesfai Ogbu, Battista Biggio, Fabio Roli

## Контекст В современной информатике возрастает важность использования искусственного интеллекта (AI) для обнаружения вредоносных программ (malware), особенно в Windows-системах. Однако существуют проблемы в объединении традиционных методов обнаружения, основанных на правилах (rule-based detection), и новых методов, основанных на машинном обучении (machine learning). Эти два подхода часто развиваются и используются в изоляции, что бесполезно, поскольку они могут снизить эффективность систем обнаружения. Это делает необходимым исследование роли правил в AI-системах и выявление возможностей для их улучшения. ## Метод Исследование проводится с использованием различных методов обнаружения вредоносных программ, включая модели машинного обучения и традиционные правила. Авторы создали комплексную базу данных для тестирования, включающую обучающие и тестовые данные. Использовалась методика сравнения моделей, обученных на разных наборах данных, включая ситуации, когда правила использовались в тренировочном процессе, и когда исключены. Эксперименты проводились с различными вариантами настройки параметров, чтобы определить влияние правил на обнаружение вредоносных программ. ## Результаты Исследование показало, что включение правил в тренировочный процесс моделей машинного обучения может снизить чувствительность к хорошо известным видам вредоносных программ. Однако это может привести к увеличению числа ложных срабатываний (falses positives). Тем не менее, такой подход увеличивает устойчивость системы к новым видам вредоносных программ и к временным изменениям в данных (temporal drift). Также был выявлен фиксированный нижний порог для ложных срабатываний, который зависит от выбора правил. ## Значимость Результаты имеют значение для развития AI-системы, улучшающих защиту от вредоносных программ. Этот подход может быть применен в защите корпоративных и домашних систем, а также для защиты от новых, неизвестных видов вредоносных программ. Одной из основных преимуществ является улучшенная устойчивость к новым угрозам, однако это имеет сторону отрицательного эффекта — увеличенное число ложных срабатываний. ## Выводы Результаты исследования показали, что включение правил в тренировочный процесс моделей может улучшить обнаружение вредоносных программ, особенно в условиях временных изменений данных. Однако требуется дополнительная работа, чтобы уменьшить ложные срабатывания и улучшить выбор правил. Будущие исследования должны рассмотреть включение динамического анализа в AI-системы для улучшения их устойчивости и эффективности.

Annotation:

Malware detection increasingly relies on AI systems that integrate signature-based detection with machine learning. However, these components are typically developed and combined in isolation, missing opportunities to reduce data complexity and strengthen defenses against adversarial EXEmples, carefully crafted programs designed to evade detection. Hence, in this work we investigate the influence that signature-based detection exerts on model training, when they are included inside the training ...

ID: 2508.09652v1 cs.CR, cs.AI

arXiv PDF

📄 Explainable Ensemble Learning for Graph-Based Malware Detection

2025-08-15

Авторы:

Hossein Shokouhinejad, Roozbeh Razavi-Far, Griffin Higgins, Ali A Ghorbani

#### Контекст Граф-ориентированные подходы в машинном обучении становятся все более популярными для решения задач моделирования сложных структур данных, таких как бинарные файлы программ. Несмотря на заметную эффективность в обнаружении штурманских программ, существуют серьезные проблемы, связанные с прозрачностью и устойчивостью подобных моделей. Особенно критичны эти аспекты в области безопасности, где необходимо не только точно определить вредоносные программы, но и объяснить решение модели. Особенностью новых подходов является устойчивость к скрытым техникам замаскированности и их возможность объяснить свои выводы. #### Метод Мы предлагаем сочетание стекинговой модели и граф-наборных моделей для объяснения действий модели. Метод включает в себя формирование графов программных структур (например, CFG) из PE-файлов, применение нескольких моделей с разными видами пропускания сообщений, а также агрегацию результатов этих моделей с помощью мультиплейера с аттестацией. Для объяснения решений используется техника, основанная на весах внимания и интерпретируемых переходах в графах. #### Результаты Мы проводили эксперименты на большом датасете PE-файлов, сравнивая нашу модель с другими подходами в области графов и бинарного анализа. Наши результаты показывают, что стекинговая модель показывает высокую точность, а также обеспечивает понятные и интерпретируемые результаты для пользователей. Мы также проверили различные сценарии, включая обнаружение новых видов вредоносных программ, и показали устойчивость модели к изменениям вредоносных программ. #### Значимость Предложенная модель может использоваться в различных ситуациях, например, для мониторинга безопасности, анализа бинарных файлов и анализа функциональности программ. Наш подход предоставляет более надежную интерпретацию решений, что полезно для технических специалистов в области безопасности. Мы также отмечаем, что наша модель может быть применена для расширения технологии обучения наборов в других областях. #### Выводы Мы успешно разработали стекинговую модель для моделирования графа бинарных файлов и ее объяснения. Наш подход улучшает точность и устойчивость моделей в области безопасности. Будущие исследования будут ориентированы на улучшение устойчивости модели к новым видам вредоносных программ и дополнительное расширение применений этой модели.

Annotation:

Malware detection in modern computing environments demands models that are not only accurate but also interpretable and robust to evasive techniques. Graph neural networks (GNNs) have shown promise in this domain by modeling rich structural dependencies in graph-based program representations such as control flow graphs (CFGs). However, single-model approaches may suffer from limited generalization and lack interpretability, especially in high-stakes security applications. In this paper, we propo...

ID: 2508.09801v1 cs.CR, cs.AI

arXiv PDF

📄 AI Security Map: Holistic Organization of AI Security Technologies and Impacts on Stakeholders

2025-08-14

Авторы:

Hiroya Kato, Kentaro Kita, Kento Hasegawa, Seira Hidano

## Контекст Социальное внедрение искусственного интеллекта (ИИ) продолжает набирать обороты, при этом увеличивается и интерес к вопросам безопасности ИИ. Однако существующие исследования ограничиваются организацией технологий, атак, защитных мер и рисков в рамках конкретных доменов или элементов ИИ. Это сделало сложной пониманию взаимосвязей между этими элементами и рядом отрицательных последствий для стейкхолдеров. Мы считаем, что знания, технологии и социальные воздействия в области ИИ должны быть глобально организованы, чтобы улучшить понимание этих взаимосвязей и влияния на стейкхолдеров. Для этого мы разработали AI Security Map, представляющую глобальную структуру взаимосвязей между элементами ИИ и потенциальными негативными последствиями на системы и стейкхолдеры. ## Метод AI Security Map состоит из двух основных видов: информационной системы (ISA) и внешнего воздействия (EIA). ISA отражает требования к элементам ИИ в рамках информационных систем, например, защита данных и безопасность алгоритмов. EIA отражает воздействия на стейкхолдеры, возникающие из-за атак или неправильного использования ИИ, такие как ущерб репутации или финансовые потери. Каждый элемент включает в себя описание возможных негативных последствий, причин и потенциальных способов их преодоления. ## Результаты Мы провели эксперименты, используя различные данные, чтобы проверить полезность нашей маппинг-структуры. На основе AI Security Map были выявлены новые отношения между элементами безопасности ИИ и последствиями для стейкхолдеров. Например, мы показали, как атаки на ИИ могут привести к негативному воздействию на репутацию организации и как эти последствия могут распространяться на другие стейкхолдеров. Эти результаты подтвердили ценность нашей маппинг-структуры для понимания комплекса проблем в области ИИ. ## Значимость AI Security Map может применяться в различных сферах, включая разработку новых технологий, обучение специалистов и политическое регулирование. Она предоставляет дополнительные преимущества, позволяя лучше понять взаимосвязи между элементами ИИ и их воздействия на стейкхолдеры. Эта структура также может иметь потенциальное влияние на развитие новых методов защиты ИИ и контроля над рисками. ## Выводы Наши исследования показали, что AI Security Map является эффективным инструментом для организации и понимания взаимосвязей в области ИИ. Мы также выделили некоторые направления для будущих исследований, включая развитие более дополнительных элементов безопасности и

Annotation:

As the social implementation of AI has been steadily progressing, research and development related to AI security has also been increasing. However, existing studies have been limited to organizing related techniques, attacks, defenses, and risks in terms of specific domains or AI elements. Thus, it extremely difficult to understand the relationships among them and how negative impacts on stakeholders are brought about. In this paper, we argue that the knowledge, technologies, and social impacts...

ID: 2508.08583v1 cs.CR, cs.AI

arXiv PDF

📄 Generative AI for Critical Infrastructure in Smart Grids: A Unified Framework for Synthetic Data Generation and Anomaly Detection

2025-08-14

Авторы:

Aydin Zaboli, Junho Hong

## Контекст Modern смарт-гриды широко используют цифровые подстанции для управления и координации энергетических ресурсов. Однако эти системы остаются подверженными широкому спектру угроз безопасности, в том числе атакам типа злоумышленника-в-середине (MiTM), взлома сетей и синхронизационных атак. Информационно-коммуникационные технологии (ICT) в этих подстанциях, такие как GOOSE (Generic Object-Oriented Substation Event), улучшают управление, но также вводят новые возможности для злоуго用ства. Традиционные системы обнаружения аномалий (ADS) часто ограничены в точности и эффективности в выявлении сложных новых типов атак. Это создает критическую потребность в развитии более устойчивых и адаптивных подходов к обнаружению угроз. ## Метод Для адресации этих вызовов предлагается использовать генерирующую ИИ (GenAI) для создания синтетических данных и обнаружения аномалий. Методология основывается на развитии Advanced Adversarial Traffic Mutation (AATM), что позволяет создавать балансированные и соответствующие протоколу GOOSE-данные. Далее, предложен GenAI-based ADS, который включает в себя процессы Task-Oriented Dialogue (ToD) для улучшения обнаружения аномалий. Архитектура ADS целенаправлена на решение проблемы данных, повышения точности и реагирования на новые типы атак. ## Результаты Использование AATM позволило создать реалистичные тестовые данные для GOOSE-сообщений, учитывая протоколную корректность и реалистичность нулевых-дней атак. GenAI-based ADS продемонстрировал значительное улучшение в обнаружении аномалий в сравнении с традиционными ADS, основанными на машинном обучении. Эксперименты показали высокую точность, гибкость и способность обнаруживать новые типы атак, даже с низким количеством данных о атаках. ## Значимость Предложенный подход имеет широкие области применения в цифровых подстанциях смарт-грид, где обеспечение безопасности и надежности критично. Он предоставляет преимущества в улучшении обнаружения новых видов атак, эффективности итоговых решений и адаптивности к изменениям в угрозах. Это может сильно повлиять на развитие безопасности и надежности систем энергии, повысив уровень защиты от новых типов злоумышленников. ## Выводы Предложенная технология GenAI-based ADS с AATM-generated данными показала существенное превосходство над традиционными ADS в обнаружении аномалий. Будущие исследования будут направлены на расширение контекста применения, улучшение адаптивности и обеспечение реалистичности в новых условиях. Это может стать ключевой технологией для создания безопасных и надежных систем управления энергией.

Annotation:

In digital substations, security events pose significant challenges to the sustained operation of power systems. To mitigate these challenges, the implementation of robust defense strategies is critically important. A thorough process of anomaly identification and detection in information and communication technology (ICT) frameworks is crucial to ensure secure and reliable communication and coordination between interconnected devices within digital substations. Hence, this paper addresses the c...

ID: 2508.08593v1 cs.CR, cs.AI

arXiv PDF

📄 EditMF: Drawing an Invisible Fingerprint for Your Large Language Models

2025-08-14

Авторы:

Jiaxuan Wu, Yinghan Zhou, Wanli Peng, Yiming Xue, Juan Wen, Ping Zhong

------------------------------------------------ ## Контекст ------------------------------------------------ Large language models (LLMs) являются современным инструментом для обработки текстовых данных, но разработка и обучение этих моделей требуют больших затрат на ресурсы и время. Одной из ключевых проблем является защита интеллектуальной собственности (IP), так как разработка модели может стать объектом копирования или несанкционированного использования. Одним из популярных подходов для защиты IP является внедрение в модель "фингерпринтов" (специальных признаков), которые позволяют установить владение или происхождение модели. Однако существующие методы, основанные на back-door атаках, страдают от ограниченной стеатности (незаметности) и эффективности. Это приводит к необходимости разработки более улучшенных методов внедрения фингерпринтов, которые были бы почти незаметными и эффективными. Предлагаемый подход EditMF является инновационным, так как он не требует обучения модели и достигает высокой незаметности фингерпринта, при этом сохраняя минимальный компьютерный объем и не вызывая существенного понижения качества работы модели. ------------------------------------------------ ## Метод ------------------------------------------------ EditMF представляет собой новый подход к внедрению фингерпринтов в модели без необходимости переобучения. Его основой лежит применение "семантических тройных связей" (triples), которые генерируются из уже имеющихся в модели знаний (например, из виртуальных баз данных с информацией об авторах, героях и сюжетах). Метод работает следующим образом: 1. **Mapping (Подбор семантических тройных связей):** Определяются три компонента (например, автор-роман-герой), которые инъектируются в модель в виде фингерпринта. 2. **Causal Tracing (Минимальное влияние слоёв):** Используется метод, который определяет минимальное число слоёв, которые влияют на каждую тройку. 3. **Zero-space Update (Нулевое изменение модели):** Фингерпринт внедряется в модель без изменения существующих знаний, что достигается без дополнительного пространства. Этот подход гарантирует, что фингерпринт не вызывает изменения в поведении модели и не оказывает отрицательного влияния на качество её работы. ------------------------------------------------ ## Результаты ------------------------------------------------ Результаты экспериментов показали, что EditMF эффективно работает с моделями **LLaMA** и **Qwen**, обеспечивая такие особенности: - **Незаметность (Stealth):** Фингерпринт почти не влияет на выход модели, а в случае возникновения некоторой корреляции, эта корреляция не оказывает влияния на реальную задачу. То есть фингерпринт остается "незаметным". - **Низкая нагрузка на ресурсы (Low Overhead):** EditMF не требует дополнительных вычислительных ресурсов для внедрения, что делает его эффективным для больших моделей. - **Надежность

Annotation:

Training large language models (LLMs) is resource-intensive and expensive, making protecting intellectual property (IP) for LLMs crucial. Recently, embedding fingerprints into LLMs has emerged as a prevalent method for establishing model ownership. However, existing back-door-based methods suffer from limited stealth and efficiency. To simultaneously address these issues, we propose EditMF, a training-free fingerprinting paradigm that achieves highly imperceptible fingerprint embedding with mini...

ID: 2508.08836v1 cs.CR, cs.AI

arXiv PDF

📄 Attacks and Defenses Against LLM Fingerprinting

2025-08-14

Авторы:

Kevin Kurian, Ethan Holland, Sean Oesch

## Контекст Большие языковые модели (LLM) становятся все более распространенными в различных секторах, включая медицину, финансы и образование. Их мощь и универсальность делают их незаменимыми инструментами в современных технологиях. Однако, при развертывании в системах с тестовым кругом, особенно тех, где конфиденциальность и безопасность ключевые, LLMs подвергаются риску "фингерпринтинга" (Fingerprinting). Это атака, при которой злоумышленники используют выдаваемые моделью ответы для идентификации идентичности модели, тем самым нарушая конфиденциальность разработчика и возможность использования модели в секретных задачах. Необходимость в эффективном способе защиты LLMs от таких атак ведет к возникновению новых методов, призванных обнаруживать и предотвращать такие атаки. ## Метод Для идентификации способов оптимизации фингерпринтинга использовалась методология, основанная на реинфорсментном обучении (Reinforcement Learning, RL). Она позволяет автоматически оптимизировать выбор запросов, что увеличивает точность фингерпринтинга. Эта модель работает с минимальным количеством запросов — 3 — что демонстрирует ее прочность и эффективность. Для защиты от таких атак предложена методика, основанная на пост-обработке ответов модели. Этот метод использует другую LLM для фильтрации выходных данных, поддерживая их семантическую целостность, но при этом маскируя характеристики модели. Эти техники целенаправленно разработаны для создания эффективного компромисса между обеспечением конфиденциальности и сохранением качества выдачи. ## Результаты Эксперименты проводились на разных моделях, используя атакующую RL-модель и защитную фильтрацию в качестве двух главных показателей. Фингерпринтинг-атака значительно повысила свою успешность, при этом используя только 3 запроса, в сравнении с случайным выбором. Защитной модели удалось существенно снизить точность фингерпринтинга, при этом сохранив качество и смысловую целостность ответов. Эти результаты показали, что обе методики эффективны в своих целях: техника атаки улучшила точность, а защитная техника снизила ее, без ущерба для качества ответов. ## Значимость Предложенные техники могут быть применены в различных сценариях, где LLMs применяются в конфиденциальных системах — для обеспечения конфиденциальности, предотвращения утечек информации и защиты от несанкционированного использования моделей. Защитная техника может быть принята во многих системах, где требуется обеспечить конфиденциальность выдаваемых ответов, таких как банко

Annotation:

As large language models are increasingly deployed in sensitive environments, fingerprinting attacks pose significant privacy and security risks. We present a study of LLM fingerprinting from both offensive and defensive perspectives. Our attack methodology uses reinforcement learning to automatically optimize query selection, achieving better fingerprinting accuracy with only 3 queries compared to randomly selecting 3 queries from the same pool. Our defensive approach employs semantic-preservin...

ID: 2508.09021v1 cs.CR, cs.AI, cs.LG

arXiv PDF

📄 A Real-Time, Self-Tuning Moderator Framework for Adversarial Prompt Detection

2025-08-13

Авторы:

Ivan Zhang

#### Контекст В современной информационной среде, где широко распространяются глубоко обученные языковые модели (LLM), гарантия их адекватного поведения и соответствия заданным целям является критическим аспектом информационной безопасности. Однако многие существующие методы защиты от адверсарных атак и яйлбрейков над LLM не успевают адаптироваться к новым угрозам, приводят к снижению качества ответов на благонамеренные запросы или оказываются сложными для масштабирования. Данная статья адресует эти проблемы, предлагая решение в виде самоподстраивающегося модератора, который в реальном времени реагирует на появляющиеся угрозы, сохраняя небольшой функциональный и ресурсозатратный штрих. #### Метод Предлагаемая модель основывается на самоподстраивающемся модераторе (RTST), который использует адаптивные механизмы выявления и ответа на адверсарные модификации запросов. Основные элементы методики включают в себя динамическое определение характеристик запроса, сравнение с предыдущими модерациями и принятие решения о необходимости корректировки ответа. Архитектура легковесна и включает в себя небольшой набор гиперпараметров, что позволяет минимизировать затраты на обучение и обеспечить быструю работу в реальном времени. Модель тренируется на основе тестовых наборов с различными типами адверсарных модификаций, что позволяет эффективно аппроксимировать разнообразные атаки. #### Результаты В экспериментах были проанализированы работы модели на Google Gemini LLM. Модель RTST показала высокую точность в угадывании адверсарных модификаций, достигая отличительного результата в сравнении с традиционными подходами, такими как методы традиционного бинарного классификатора или тяжеловесного fine-tuning. Исследователи также заметили, что RTST значительно менее влияет на качество ответов на благонамеренные запросы, чем существующие алгоритмы. Экспериментальные результаты подтверждают, что RTST может быть эффективно применен в реальном времени, обеспечивая достаточное сохранение производительности и безопасности. #### Значимость Полагаясь на самоподстраивающуюся архитектуру, RTST может быть применен в различных сферах, включая информационную безопасность, системы управления контентом и взаимодействие с клиентами. Одним из основных преимуществ является способность быстро адаптироваться к новым видам атак без необходимости периодического переучивания. Это делает RTST более масштабируемым и эффективным в сравнении с другими методами. Также, его легковесная архитектура позволяет его исполь

Annotation:

Ensuring LLM alignment is critical to information security as AI models become increasingly widespread and integrated in society. Unfortunately, many defenses against adversarial attacks and jailbreaking on LLMs cannot adapt quickly to new attacks, degrade model responses to benign prompts, or introduce significant barriers to scalable implementation. To mitigate these challenges, we introduce a real-time, self-tuning (RTST) moderator framework to defend against adversarial attacks while maintai...

ID: 2508.07139v1 cs.CR, cs.AI

arXiv PDF

📄 Chimera: Harnessing Multi-Agent LLMs for Automatic Insider Threat Simulation

2025-08-13

Авторы:

Jiongchi Yu, Xiaofei Xie, Qiang Hu, Yuhan Ma, Ziming Zhao

## Контекст Инсайдерские угрозы (insider threats) представляют опасность, которая может привести к серьезным потерям для организаций. Они могут принимать различные формы, такие как утечка конфиденциальной информации, системный саботаж или кража интеллектуальной собственности. Одним из главных задач для гарантии безопасности является развитие эффективных методов для идентификации и симуляции таких угроз. Изучение этих вопросов требует доступа к качественным данным, что часто оказывается сложным из-за конфиденциальности организационных данных и их недостаточного количества для полноценного исследования. Это способствует ограниченности в развитии методов внутриорганизационного мониторинга и симуляции угроз. ## Метод Чимера (Chimera) — первая платформа, основанная на многоагентной модели л LLM, которая автоматически симулирует поведение пользователей внутри организации, включая как благонамеренное, так и злонамеренное. Она учитывает ролевое поведение различных типов сотрудников, включая руководителей, разработчиков и администраторов. Используя модули для групповых встреч, парные взаимодействия и самостоятельное расписание, платформа генерирует подробные логи действий пользователей. Процесс симуляции включает 15 типов угроз, таких как кража интеллектуальной собственности и системный саботаж. Данные, генерируемые Chimera, хранятся в формате ChimeraLog, представляющем собой новый высококачественный датасет, предназначенный для исследований в области определения внутриорганизационных угроз. ## Результаты Данные ChimeraLog были протестированы в составе нескольких кейсов, включая технологическую компанию, финансовую корпорацию и медицинское учреждение. Эксперименты показали высокую реалистичность генерируемых данных и разнообразие угроз, включая обоснованные шаблоны моделирования вредоносного поведения. В частности, проведенный тест на F1-метрике показал, что уровень сложности ChimeraLog значительно выше, чем у других датасетов. Это позволяет использовать Chimera для достижения более точных и сложных моделей поддержки решений в области мониторинга и симуляции внутриорганизационных угроз. ## Значимость Предложенный подход имеет широкие возможности в области безопасности и мониторинга. Платформа Chimera может применяться для создания достоверных датасетов, которые позволят развивать модели мониторинга и обнаружения внутриорганизационных угроз. Это также может способствовать развитию методов для идентификации и предотвращения внутренних угроз, таких как кража данных или саботаж. Благодаря своей реалистичности и разнооб

Annotation:

Insider threats, which can lead to severe losses, remain a major security concern. While machine learning-based insider threat detection (ITD) methods have shown promising results, their progress is hindered by the scarcity of high-quality data. Enterprise data is sensitive and rarely accessible, while publicly available datasets, when limited in scale due to cost, lack sufficient real-world coverage; and when purely synthetic, they fail to capture rich semantics and realistic user behavior. To ...

ID: 2508.07745v2 cs.CR, cs.AI, cs.SE

arXiv PDF

1
2
44
45
46
47

Показано 451 - 460 из 470 записей