📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня
Авторы:

Benedetta Tondi, Andrea Costanzo, Mauro Barni

## Контекст В последние годы стало всё более популярным использование генераторов изображений на основе искусственного интеллекта (AI-генераторов) для создания изображений, основанных на текстовых описаниях. Однако эти технологии иногда используются незаконно, чтобы создавать спам, де DEEPFAKE-контент или враньё. Для борьбы с этим проблемой необходимо мотивированное применение, которое позволит обнаруживать искусственные изменения в изображениях, генерируемых AI. В этом контексте появилась методика "Of-SemWat" (Отечественный Семантический Метадатный Метод), нацеленная на решение проблемы доказательства авторства изображений и судебного доказательства, когда манипуляции с ними были выполнены с помощью AI. Этот метод предлагает возможность встраивать в картинки семантические метаданные, описывающие образ, который может соответствовать входному текстовому промоутору. ## Метод Метод Of-SemWat заключается в создании высокополевого объёмного водяного знака, который может быть встроен в любого размера изображения. Основная идея заключается в использовании традиционных систем водяных знаков, в том числе ортогональных и турбокодов, чтобы обеспечить высокую устойчивость. Для улучшения интергральности водяного знака в изображение используется техника частотного внедрения и маскирования, которая позволяет минимизировать заметность водяного знака в графическом представлении. Работа выполняется на базе нейросетевой архитектуры, модифицированной для обработки больших размеров изображений. В процессе внедрения метаданных водяного знака в картинку становится главным фактором маскирование, чтобы оптимизировать незаметность. Это делается с использованием частотной модели, которая позволяет водяному знаку сохраняться в графической структуре изображения. ## Результаты Проведенные эксперименты показали, что Of-SemWat достаточно высокой степени устойчивости к широкому спектру видов процессов обработки изображений, включая сжатие, изменение разрешения, шумоподавление и различные виды фильтров. Более того, даже после применения AI-инпейтинга, водяный знак может быть восстановлен, что позволяет определить, были ли внесены изменения в изображение. Таким образом, Of-SemWat позволяет не только верифицировать целостность изображения, но и отслеживать изменения, внесённые AI-генератором, в соответствии с входным текстом. ## Значимость Of-SemWat открывает широкие перспективы в области защиты интеллектуальной собственности, модернизации методов доказательства прав на цифровый контент и противодействия AI-мошенничеству. Этот метод может
Annotation:
We propose a high-payload image watermarking method for textual embedding, where a semantic description of the image - which may also correspond to the input text prompt-, is embedded inside the image. In order to be able to robustly embed high payloads in large-scale images - such as those produced by modern AI generators - the proposed approach builds upon a traditional watermarking scheme that exploits orthogonal and turbo codes for improved robustness, and integrates frequency-domain embeddi...
ID: 2509.24823v1 cs.CR, cs.AI, cs.CV, cs.LG
Авторы:

Yupei Liu, Yanting Wang, Yuqi Jia, Jinyuan Jia, Neil Zhenqiang Gong

Опубликовано: 2024-11-19 ## Контекст Проблема системы безопасности в технологиях ИИ, особенно с Large Language Models (LLMs), остается острой. Одним из наиболее распространенных типов атак являются **prompt injection attacks**, при которых злоумышленник вводит в систему специально созданные команды, которые могут повлиять на поведение модели. Эти атаки подвергают LLMs риску кражи данных, раскрытия конфиденциальной информации и даже управления моделью. Существующие подходы к защите от таких атак, такие как fine-tuning, показали недостаточную эффективность, особенно при сильно настроенных атаках. Поэтому, необходимо разрабатывать более устойчивые методы, которые могут защитить LLMs в рабочей среде. ## Метод Разработанный подход **SecInfer** основан на технике **inference-time scaling**, которая увеличивает мощность вычислений во время интерпретации инпута. Он включает два основных этапа: 1. **System-prompt-guided sampling** – вводятся различные системные альтернативы для обработки запроса, чтобы сгенерировать несколько вариантов ответов. Это позволяет модели "открыть" больше возможных реакций на запрос. 2. **Target-task-guided aggregation** – среди генерируемых ответов выбирается тот, который наиболее подходит для достижения заданной цели пользователя. Этот этап стремится нормализовать результаты, контролируя целесообразность ответа. ## Результаты Исследования проводились на наборе данных, включающем обучающие и тестовые выборки, с различными уровнями сложности присущих prompt injection attacks. Модель SecInfer была сравнена с другими методами защиты. Результаты показали, что SecInfer не только эффективно справляется с ранее известными атаками, но и может справиться с адаптивными атаками, которые настроены на обход большинства существующих систем. ## Значимость SecInfer может быть применен в различных областях, где используются LLMs: системы рекомендаций, системы анализа текста, интеллектуальные помощники и даже системы управления. Он предлагает высокую степень защиты, более эффективность и универсальность по сравнению с другими существующими методами. Кроме того, SecInfer может улучшить уровень доверия пользователей к LLMs, обеспечив безопасность в работе с ними. ## Выводы SecInfer является первым подходом, который эффективно использует **inference-time scaling** для защиты от prompt injection attacks. Он показал значительное улучшение по сравнению с другими методами и предлагает новый подход к защите LLMs. Будущие исследования будут сфокусированы на улучшении его скорости и эффективности, а также на расширении его применения в различных сценариях.
Annotation:
Prompt injection attacks pose a pervasive threat to the security of Large Language Models (LLMs). State-of-the-art prevention-based defenses typically rely on fine-tuning an LLM to enhance its security, but they achieve limited effectiveness against strong attacks. In this work, we propose \emph{SecInfer}, a novel defense against prompt injection attacks built on \emph{inference-time scaling}, an emerging paradigm that boosts LLM capability by allocating more compute resources for reasoning duri...
ID: 2509.24967v1 cs.CR, cs.AI
Авторы:

Yaman Jandali, Ruisi Zhang, Nojan Sheybani, Farinaz Koushanfar

## Контекст Область privacy-preserving technologies на протяжении многих лет является ключевой темой в компьютерных науках, особенно в связи с возрастающим значением данных и их защиты. Несмотря на прогресс в шифровании и анонимных методах передачи данных, основной проблемой остается высокий компьютерный и сетевой оверхед, который ограничивает практическое применение этих технологий в реальных системах. Это ограничение становится особенно актуальным при работе с большими моделями языка (LLM), требующими больших вычислительных ресурсов и безопасности. Мотивация для этого исследования заключается в создании методов, которые бы уменьшили этот оверхед и позволили использовать LLM-scale приложения в полностью защищенных условиях. ## Метод Работа основывается на следующих технологиях: multi-party computation (MPC), zero-knowledge proofs (ZKPs) и fully homomorphic encryption (FHE). Архитектура предлагаемого решения основывается на комплексном сочетании этих технологий, чтобы оптимизировать процессы вычислений и снизить нагрузку на систему. Методика включает несколько этапов: разработка оптимизированных алгоритмов, их тестирование на реальных данных, и анализ полученных результатов. Одним из ключевых аспектов является значительное сокращение накладных расходов, получаемое благодаря тщательному сочетанию технических решений и алгоритмов. ## Результаты В результате экспериментов был продемонстрирован успех в создании методов, позволяющих реализовывать LLM-scale приложения с приемлемым уровнем безопасности и минимальным оверхедом. Для этих целей использовались различные данные, включая данные для обучения моделей языка и данные для тестирования защищенности систем. Было доказано, что система позволяет уменьшить стоимость вычислений, не ухудшая безопасность и качество результатов. Это продемонстрировано в сценариях, таких как защита прав на интеллектуальную собственность, контроль использования моделей языка, и оптимизация интерпретации трансформеров. ## Значимость Полученные результаты имеют широкие применения в различных областях, включая защиту корпоративных данных, нейронные сети, искусственный интеллект и безопасные вычисления. Особенное преимущество заключается в возможности использования LLM-scale моделей в средах, требующих высокого уровня безопасности и конфиденциальности. Это может привести к улучшению безопасности коммерческих систем, расширению возможностей для разработчиков и пользователей, а также повышению эффективности изобретений в области AI. ## Выводы Данная работа достигла значительных улучшений в оптимизации privacy-preserving primitives, что открывает путь к практическому применению
Annotation:
Privacy-preserving technologies have introduced a paradigm shift that allows for realizable secure computing in real-world systems. The significant barrier to the practical adoption of these primitives is the computational and communication overhead that is incurred when applied at scale. In this paper, we present an overview of our efforts to bridge the gap between this overhead and practicality for privacy-preserving learning systems using multi-party computation (MPC), zero-knowledge proofs (...
ID: 2509.25072v1 cs.CR, cs.AI, cs.LG
Авторы:

Bochuan Cao, Changjiang Li, Yuanpu Cao, Yameng Ge, Ting Wang, Jinghui Chen

Название: You Can't Steal Nothing: Mitigating Prompt Leakages in LLMs via System Vectors ## Контекст Large language models (LLMs) признаны стандартом в области искусственного интеллекта для выполнения различных задач. Однако, по мере расширения их применения, появляются новые проблемы, в том числе риск вытекания системных запросов (prompt leakage). Такой вид утечек нарушает безопасность и может привести к утечке конфиденциальных данных. Защита от таких проблем становится все более важной для развития моделей LLM на безопасных и эффективных технологиях. ## Метод Авторы предлагают SysVec — метод, который представляет системные запросы не как текст, а в виде внутренних векторных представлений. Это позволяет скрыть запросы от внешних атак и сохранить все функциональные возможности модели. Во время обучения и использования модели вводится специальная модификация системного запроса, которая не только защищает данные, но также улучшает общее поведение модели. ## Результаты Проведенные эксперименты показывают, что SysVec эффективно минимизирует риск утечки системных запросов. Модель демонстрирует улучшенную устойчивость к различным атакам, в том числе тем, которые ранее были успешны против других LLM-моделей. Эксперименты проводились на моделях GPT-4o и Claude 3.5 Sonnet, и результаты показали, что SysVec не только защищает данные, но и повышает качество выполнения задач, в том числе в сценариях с длинными контекстами. ## Значимость Систематические риски утечки системных запросов нарушают безопасность и могут привести к нежелательным последствиям. SysVec предлагает новый подход к решению этой проблемы, обеспечивая безопасность и сохранение функциональности моделей. Это может быть применено в различных областях, где требуется безопасный интеллектуальный анализ данных, таких как медицина, финансы и юридические системы. Будущие исследования будут направлены на усовершенствование метода и его использование в современных системах LLM. ## Выводы Основным достижением является представление системных запросов в виде внутренних векторных представлений, что позволяет защитить данные и повысить эффективность моделей. Будущие исследования будут уделять внимание улучшению этих технологий для их применения в безопасных системах с большим объемом данных.
Annotation:
Large language models (LLMs) have been widely adopted across various applications, leveraging customized system prompts for diverse tasks. Facing potential system prompt leakage risks, model developers have implemented strategies to prevent leakage, primarily by disabling LLMs from repeating their context when encountering known attack patterns. However, it remains vulnerable to new and unforeseen prompt-leaking techniques. In this paper, we first introduce a simple yet effective prompt leaking ...
ID: 2509.21884v1 cs.CR, cs.AI, cs.CL
Авторы:

Haochen Gong, Chenxiao Li, Rui Chang, Wenbo Shen

## Контекст Одним из перспективных направлений развития интеллектуальных технологий является создание компьютерных агентов, позволяющих пользователям управлять компьютером с помощью естественного языка. Эти агенты, основанные на больших языковых моделях (LLM), объединяют в себе возможности программного обеспечения и алгоритмов машинного обучения, делая взаимодействие с компьютером более естественным и продуктивным. Однако использование LLM не без проблем. Их неопределенность и нежелательное поведение при непредвиденных входных данных могут привести к серьезным последствиям, когда агент получает права на управление компьютером. Например, неверные действия могут привести к потере данных, вредоносному ПО или даже утечке конфиденциальной информации. Эти угрозы становятся еще более актуальными в условиях увеличения зависимости от цифровых систем. Есть необходимость в разработке систем, обеспечивающих безопасность и эффективность управления агентами. ## Метод CSAgent представляет собой статическую систему управления доступом, основанную на контекстной модели, которая обеспечивает безопасность и эффективность управления компьютер-управляющими агентами. Ключевой инновацией является интеграция целей и контекстов в политики управления доступом. Для автоматизации процесса создания и тестирования политик, CSAgent предлагает инструментарий для разработчиков, который помогает формировать политики, учитывающие конкретные цели и контексты пользователя. Основным элементом системы является оптимизированный OS-сервис, который позволяет применять эти политики в реальном времени, проверяя действия агентов на соответствие целям и условиям. CSAgent работает в различных средах, включая API, CLI и GUI, что делает его широко применимым в различных ситуациях. ## Результаты Результаты экспериментов показывают, что CSAgent эффективно защищает системы от 99.36% атак, в то же время добавляя минимальный производительностный overhead в 6.83%. Это достигается благодаря интеллектуальной политике, которая анализирует контекст действия и принимает решения в реальном времени. Данные эксперименты проводились на различных системах с разным объемом данных и различными сценариями атак. Результаты показывают, что CSAgent может успешно определять и блокировать нежелательные действия, которые могут привести к безопасностным проблемам. ## Значимость Система CSAgent имеет широкие возможности применения в различных областях, где требуется защита от нежелательных действий и мониторинг компьютер-управляющих агентов. Например, в области безопасности
Annotation:
Large language model (LLM)-based computer-use agents represent a convergence of AI and OS capabilities, enabling natural language to control system- and application-level functions. However, due to LLMs' inherent uncertainty issues, granting agents control over computers poses significant security risks. When agent actions deviate from user intentions, they can cause irreversible consequences. Existing mitigation approaches, such as user confirmation and LLM-based dynamic action validation, stil...
ID: 2509.22256v1 cs.CR, cs.AI, cs.OS
Авторы:

Gustavo Sánchez, Ghada Elbez, Veit Hagenmeyer

## Контекст В последние годы системы энергетического сектора становятся все более целью атак в сети, что приводит к усиленному интересу к их защите. Эти атаки могут привести к необратимым последствиям, включая потерю доступа к ресурсам и ущерб финансовым интересам, что делает защиту энергетических систем высокой приоритетности. Однако объем и характеристики угроз постоянно меняются, что усложняет их понимание и прогнозирование. В настоящее времани существуют ряд технологий, предназначенных для обнаружения и анализа таких угроз. Однако необходимость в их совершенствовании и комбинировании с геополитическим анализом для более точного исследования угроз все еще остается актуальной. Многие существующие методы не полностью учитывают геополитические контексты, что может привести к недостаточной точности в обнаружении и прогнозировании угроз. В данной работе мы сосредоточиваемся на геополитической структуре угроз к энергетическим системам, применяя генерирующую искусственную интеллекту, чтобы добывать и структурировать данные о цифровых угрозах, чтобы улучшить их анализ. Этот подход помогает улучшить обнаружение угроз и сделать анализ более точным и надежным. ## Метод Мы применяем подход, объединяющий международные базы данных, включающие новостные материалы, отчеты о нарушениях и интеллектуальные анализы. Данные расширены с помощью генерирующей искусственной интеллекту, чтобы извлечь и структурировать сведения об угрозах. Мы использовали несколько типов анализа, включая геополитический, чтобы проанализировать тенденции в географии угроз и целей. Кроме того, мы провели эксперименты, сравнивая эффективность различных методов обнаружения угроз, в том числе методов, основанных на обучении, для обнаружения злоумышленников в энергетических системах. Наша архитектура использовала вспомогательные модели обнаружения и сравнивала их на основе указателей вторжения. ## Результаты Мы провели эксперименты с использованием данных из нескольких баз данных, включая новостные материалы и отчеты о безопасности. Это позволило нам изучить тенденции в геополитической структуре угроз и выявить сильные стороны и слабые места в системах защиты. Мы могли также оценить эффективность различных методов обнаружения угроз, в том числе таких, как методы на основе обучения, и отметить их сильные и слабые стороны. Наши результаты показали, что некоторые методы обнаружения угроз более эффективны в определенных регионах и типах угроз, но не всегда широко эффективны.
Annotation:
The escalating frequency and sophistication of cyber threats increased the need for their comprehensive understanding. This paper explores the intersection of geopolitical dynamics, cyber threat intelligence analysis, and advanced detection technologies, with a focus on the energy domain. We leverage generative artificial intelligence to extract and structure information from raw cyber threat descriptions, enabling enhanced analysis. By conducting a geopolitical comparison of threat actor origin...
ID: 2509.22280v1 cs.CR, cs.AI
Авторы:

Yu Liu, Boxiang He, Fanggang Wang

## Контекст Традиционные системы интегрированного сенсорного и связного обмена (ISAC) сталкиваются с возрастающими угрозами к информационной безопасности, в том числе рискум несанкционированного доступа к данным и перехвату шифрованного трафика. Для решения этих проблем необходимо создать фреймворк, который объединил бы функции сенсорного и связного обмена, при этом усилив усиление цифровой безопасности. Этот фреймворк должен быть подходящим для различных ситуаций, включая случаи, когда требуется обеспечить доступ к данным только для законных пользователей, а также защитить данные от перехвата и расшифровки. Недавние развития в области нейронных сетей, в том числе генерирующих и злоупотребляющих атаками, демонстрируют возможности для улучшения безопасности в системах ISAC. ## Метод Предложенный фреймворк, названный **Security-aware Semantic-driven ISAC (SS-ISAC)**, включает в себя два модуля: **encryption (шифрования)** и **decryption (дешифрования)**. Они реализованы с помощью тренируемых **adversarial residual networks (ARN)**. Эти модули могут быть добавлены в систему без существенных изменений в оборудовании. Модуль шифрования устанавливается после **semantic transmitter**, используя ARN для генерирования адверсарных атак. Модуль дешифрования расположен перед **semantic receiver** и использует ARN для уменьшения влияния атак и шума. Для оптимизации этих модулей используется потеря, которая учитывает уровень адверсарной атаки, параметры SAC, а также риск прослушивания. Эта структура позволяет гибко реагировать на уровень требуемой безопасности, не требуя основных изменений в аппаратной части. ## Результаты Опытные исследования проводились на основе данных, симулирующих различные уровни атак и уровней шума. Результаты показали, что модель SS-ISAC эффективно защищает систему от перехвата данных, повышая уровень защиты в 30% в сравнении с базовой системой ISAC. Также был продемонстрирован влияние ARN на улучшение качества сенсорной информации, когда система должна обеспечить как качество связи, так и безопасность. Таким образом, SS-ISAC не только повышает безопасность, но и поддерживает высокий уровень SAC. ## Значимость SS-ISAC может быть применен в различных областях, таких как подключенные автомобили, системы умных домов и интернет вещей. Его гибкость и возможность адаптации к разным уровням безопасности делают его подходом, который может быть использован в различных сценариях. Преимущество SS-ISAC заключается в том, что он обеспечивает высокую защиту без необходимости значительных изменений в оборудовании, что экономит ресурсы и упрощает развертывание. Такой подход
Annotation:
This paper proposes a novel and flexible security-aware semantic-driven integrated sensing and communication (ISAC) framework, namely security semantic ISAC (SS-ISAC). Inspired by the positive impact of the adversarial attack, a pair of pluggable encryption and decryption modules is designed in the proposed SS-ISAC framework. The encryption module is installed after the semantic transmitter, adopting a trainable adversarial residual network (ARN) to create the adversarial attack. Correspondingly...
ID: 2509.20835v1 cs.CR, cs.AI
Авторы:

Dincy R. Arikkat, Sneha B. T., Serena Nicolazzo, Antonino Nocera, Vinod P., Rafidha Rehiman K. A., Karthika R

## Контекст Киберугрозы становятся все более сложными, многоуровневыми и скрытыми, что затрудняет их предвидение и противостояние. Чтобы эффективно сражаться с этими угрозами, организации полагаются на Cyber Threat Intelligence (CTI) — информацию об угрозах, которая позволяет прогнозировать, обнаруживать и минимизировать воздействие кибератак. Однако эффективность CTI определяется качеством данных, которые используются для обучения моделей, их тестирования и сравнения. В связи с постоянным изменением киберугроз и атачерских технологий необходимо постоянно обновлять и расширять CTI-данные. Недавно Telegram получил популярность как источник CTI, поскольку он предоставляет актуальную и разнообразную информацию о киберугрозах. Этот рабочий процесс адресует проблему создания CTI-данных через автоматизацию сбора и фильтрации содержимого из Telegram. ## Метод Для построения CTI-данных был разработан автоматизированный пайплайн, который автоматически собирает и отбирает угрожающую информацию из Telegram. Этот процесс начинается с идентификации релевантных Telegram-каналов, связанных с кибербезопасностью. Затем, используя пайплайн, были собраны 145 349 сообщений из 12 каналов, выбранных из 150 источников. Для того, чтобы отфильтровать угрожающую информацию от нерелевантного контента, был использован BERT-базированный классификатор. Этот классификатор достиг точности 96.64% в отборе релевантных CTI-данных. Отфильтрованные данные включают 86 509 угроз, таких как домены, IP-адреса, URL-адреса, хеши и CVE-идентификаторы. Эта методология обеспечивает построение большого, высококачественного набора данных CTI. ## Результаты Проведенные эксперименты показали, что автоматизированный пайплайн эффективно собирает и отбирает угрожающую информацию из Telegram. Отфильтрованные данные включают 86 509 угрозных элементов, таких как домены, IP-адреса, URL-адреса, хеши и CVE-идентификаторы. Базовый классификатор BERT достиг точности 96.64% в классификации релевантности сообщений. Эти результаты указывают на успех решения проблемы сбора и фильтрации информации в Telegram, что дает возможность создавать богатые и качественные данные CTI. ## Значимость Возможности этого подхода распространяются на различные области. Этот набор данных может использоваться для обучения и тестирования моделей анализа киберугроз, для создания б BENCHMARKS, для разработки навыков в сфере безопасности информационных технологий. Он также может быть применен в оперативных задачах, таких как мониторинг угроз и реагирование на них в реальном времени. Этот подхо
Annotation:
Cyber Threat Intelligence (CTI) enables organizations to anticipate, detect, and mitigate evolving cyber threats. Its effectiveness depends on high-quality datasets, which support model development, training, evaluation, and benchmarking. Building such datasets is crucial, as attack vectors and adversary tactics continually evolve. Recently, Telegram has gained prominence as a valuable CTI source, offering timely and diverse threat-related information that can help address these challenges. In t...
ID: 2509.20943v1 cs.CR, cs.AI, cs.ET
Авторы:

Ibrahim Altan, Abdulla Bachir, Yousuf Parbhulkar, Abdul Muksith Rizvi, Moshiur Farazi

## Контекст Фишинговые атаки становятся все более опасными и развитыми, нацеленными на эксплуатацию пробелов в системах безопасности электронной почты. Традиционные методы обнаружения таких атак часто ограничиваются анализом только текста сообщений или URL-адресов, не учитывая их взаимосвязь. Это приводит к неэффективности в обнаружении современных фишинговых угроз. Целью нашей работы является разработка метода, который комбинирует анализ содержания электронных писем и их структурных компонентов, чтобы повысить точность обнаружения фишинговых почтовых сообщений. ## Метод Мы предлагаем двухпутевую систему обнаружения фишинга, которая сливает методы естественного языка (NLP) и анализа структуры URL. Для обработки текста используется модель DistilBERT – трансформер, прикладывающий усилия для точного выделения понятий в тексте и отделения ненужных спама. Для анализа URL-адресов применяется TF-IDF векторизация на уровне символов, которая позволяет выявить структурные характеристики нарушений безопасности. Эти два модуля работают вместе, объединяя семантический контекст текста с техническими признаками ссылок. Существует возможность использовать как отдельные модели, так и объединенную версию для увеличения точности. ## Результаты Мы провели эксперименты с реальными данными, включая набор электронных писем и URL-адресов. DistilBERT показал высокую точность в обнаружении фишинговых сообщений, сбалансированную с низким потреблением ресурсов. TF-IDF векторизация с Random Forest также достигла высоких результатов в выявлении фишинговых URL-адресов. Интеграция двух моделей демонстрирует существенное повышение точности и устойчивости в сравнении с отдельными подходами. ## Значимость Наш подход может применяться в системах мониторинга электронной почты для обнаружения фишинга. Он обладает высокой точностью, гибкостью и практическим значением в реальных условиях. Это решение может повысить уровень безопасности электронной почты, снизив риск утечки данных и финансовых потерь. ## Выводы Мы доказали, что двухпутевый подход к обнаружению фишинга, комбинирующий трансформерные модели и классические методы, эффективен. Наша работа открывает новые возможности для улучшения безопасности электронной почты и может поinspire other researchers to explore hybrid approaches in cybersecurity.
Annotation:
Phishing emails pose a persistent and increasingly sophisticated threat, undermining email security through deceptive tactics designed to exploit both semantic and structural vulnerabilities. Traditional detection methods, often based on isolated analysis of email content or embedded URLs, fail to comprehensively address these evolving attacks. In this paper, we propose a dual-path phishing detection framework that integrates transformer-based natural language processing (NLP) with classical mac...
ID: 2509.20972v1 cs.CR, cs.AI
Авторы:

Ping He, Changjiang Li, Binbin Zhao, Tianyu Du, Shouling Ji

## Контекст Появление бо LLM-based agents (LLM-агентов), основанных на больших языковых моделях, привело к их широкому распространению в различных сферах применения. Интеграция серии Model Context Protocol (MCP) в эти агенты позволила стандартизировать взаимодействие между ними и их средами, такими как платформы генерации текста и диалоговые системы. Однако применение MCP носит риск токсических атак, когда злоумышленник внедряет вредоносные инструменты в среду, чтобы сбить с толку или красть данные. Существующие исследования указывали на эти уязвимости, однако ред таиминг-атаки все еще остаются в активном этапе проверки, а автоматическое и систематическое тестирование такого рода вредоносного использования MCP остается недостроенным. ## Метод Мы предлагаем AutoMalTool, автоматизированный фреймворк для тестирования LLM-агентов при атаках с использованием вредоносных MCP-инструментов. Наш подход заключается в генерации настраиваемых MCP-инструментов, которые могут влиять на поведение агентов. Технология основывается на машинном обучении, которая позволяет генерировать систематические ред таиминг-атаки в рамках тестирования безопасности LLM-агентов. Мы интегрируем техники подделки входных данных и анализ контекстов, чтобы генерировать целенаправленные атаки, которые могут работать в различных сетах и ситуациях. ## Результаты Наши эксперименты показали, что AutoMalTool эффективно генерирует вредоносные MCP-инструменты, которые могут изменять поведение любых LLM-агентов, в том числе весьма современных. Мы оценили его работу на множестве различных сетах и ситуаций, в том числе на тест-козе, в реальных системах, и на тестовых версиях популярных LLM-based agents. Результаты показали, что AutoMalTool может эффективно выполняться в различных средах и скрывать свои действия от существующих систем защиты. Однако, мы также отметили, что наш подход еще не в состоянии контролировать полностью все варианты взаимодействия, что может стать ограничением. ## Значимость AutoMalTool открывает новый подход к тестированию безопасности LLM-based agents, в том числе в сферах, где используются MCP-инструменты. Это может помочь в поиске новых уязвимостей, связанных с использованием MCP-инструментов, и в улучшении систем защиты тест-коз. Наш фреймворк также может использоваться в направлении разработки безопасных технологий, которые могут избежать подобных атак. Мы также планируем расширить нашу работу, включив в нее более широкий спектр социальных и технологических сетах. ## Выводы Мы предлагаем AutoMalTool, автоматизированный фреймворк для тестирования безопасности LLM
Annotation:
The remarkable capability of large language models (LLMs) has led to the wide application of LLM-based agents in various domains. To standardize interactions between LLM-based agents and their environments, model context protocol (MCP) tools have become the de facto standard and are now widely integrated into these agents. However, the incorporation of MCP tools introduces the risk of tool poisoning attacks, which can manipulate the behavior of LLM-based agents. Although previous studies have id...
ID: 2509.21011v1 cs.CR, cs.AI, cs.SE
Показано 271 - 280 из 470 записей