📚 Саммари научных статей из arXiv

Найдено 470 результатов по запросу 'cs.CR, cs.AI' Сбросить поиск

📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 CCFC: Core & Core-Full-Core Dual-Track Defense for LLM Jailbreak Protection

2025-08-22

Авторы:

Jiaming Hu, Haoyu Wang, Debarghya Mukherjee, Ioannis Ch. Paschalidis

## Контекст Проникновение (jailbreak) моделей текстового понимания — это серьезная проблема, которая может привести к искажению ответов модели и эксплуатации её для злонамеренных целей. Эти атаки, такие как **prompt injection**, способствуют скрытому изменению вывода модели при помощи введения злонамеренных слов в запрос. Другой вид атаки — **structure-aware jailbreak** — ориентирован на изменение внутренней структуры запроса, чтобы извлечь нежелательные результаты. Необходимость в эффективных методах защиты от таких атак становится критичной в связи с растущим распространением широкоречевых моделей (LLM) в критичных областях, таких как финансы, здравоохранение и юридические системы. Традиционные подходы, такие как модификация процесса обучения или использование шифрования, часто оказываются недостаточно эффективными, так как не обеспечивают баланса между безопасностью и качеством ответов. ## Метод CCFC — это двойной подход защиты на уровне запросов, который разделяет запрос пользователя на **semantic core** (семантический ядро) и **full-core** (полное ядро). **Semantic core** используется для извлечения смысла запроса с помощью few-shot prompting, чтобы отфильтровать любые ненужные или злонамеренные слова. Этот подход используется в **Core track**, где модель ответает только на центральную часть запроса, игнорируя внешние помехи. В **Core-full-core track**, модель сравнивает ответы на полный запрос и его семантическое ядро. Если ответы не совпадают, то это означает, что запрос может содержать вредоносное воздействие, и ответ отклоняется. Это двойной контроль позволяет CCFC выявлять и отвергать атаки без повреждения качества ответов на легitimate запросы. ## Результаты Комплексный эксперимент проводился на нескольких стандартных датасетах, включая симуляции двух видов атак: 1) **prompt injection**, где в запросе внедрялись злонамеренные слова; 2) **structure-aware jailbreak**, где менялась внутренняя структура запроса. Результаты показали, что CCFC уменьшает успешность атак на 50-75% по сравнению с существующими защитными методами. Особенно выдачу CCFC в борьбе с градиентными атаками DeepInception и GCG, где её эффективность была наивысшей. Этот подход подтвердил свою эффективность в обеспечении безопасности без значительного снижения качества ответов на неатакуемые запросы. ## Значимость Потому что CCFC объединяет множество защитных механизмов, он может быть применён в различных сценариях, в которых широкоречевые модели применяются в критичных областях. Он не только повышает безопасность, но и повышает доверие в корректности информации, которую возвращает модель. Этот подход может быть использован в областях, таких

Annotation:

Jailbreak attacks pose a serious challenge to the safe deployment of large language models (LLMs). We introduce CCFC (Core & Core-Full-Core), a dual-track, prompt-level defense framework designed to mitigate LLMs' vulnerabilities from prompt injection and structure-aware jailbreak attacks. CCFC operates by first isolating the semantic core of a user query via few-shot prompting, and then evaluating the query using two complementary tracks: a core-only track to ignore adversarial distractions (e....

ID: 2508.14128v1 cs.CR, cs.AI

arXiv PDF

📄 Foe for Fraud: Transferable Adversarial Attacks in Credit Card Fraud Detection

2025-08-22

Авторы:

Jan Lum Fok, Qingwen Zeng, Shiping Chen, Oscar Fawkes, Huaming Chen

## Контекст Credit card fraud detection (CCFD) является критическим приложением машинного обучения (ML) в финансовой сфере, где точное выявление мошеннических транзакций критически важно для снижения финансовых потерь. ML-модели показали свою эффективность в решении задач по детекции мошенничества, особенно в работе с табулярными данными. Однако влияние адверсарных атак на такие модели, особенно на промышленные модели CCFD, до сих пор значительно не исследовано. Эти незаметные уязвимости представляют значительную угрозу для безопасности и устойчивости финансовой отрасли, особенно при высокоценных транзакциях, где потери могут быть великолепными. Данная работа стремится установить уязвимости табулярных данных CCFD под угрозой адверсарных атак, чтобы подчеркнуть необходимость развития защитных методов. ## Метод Мы предлагаем подробный фреймворк для исследования уязвимостей CCFD-моделей под действием адверсарных атак. Методология включает интеграцию gradient-based attack методов в табулярные данные транзакций кредитных карт в black- и white-box settings. Данные были специально подготовлены с целью оценки того, насколько табулярные данные уязвимы к малейшим подборам, направленным на деформацию машинного обучения. Мы также проверили, насколько эффективны transfering attacks между разными моделями, включая gradient- и non-gradient-based models. ## Результаты Наши эксперименты показали, что табулярные данные CCFD остаются уязвимыми даже на малых подборах, вне зависимости от типа атаки. Мы показали, что gradient-based attacks могут эффективно повлиять на ML-модели в случае black-box и white-box атак, а также успешно перенесены с одной модели на другую. Это подтверждает, что tabular data CCFD является склонным к таким атакам, которые могут вызвать заметные потери в работе системы детекции мошенничества. ## Значимость Наши результаты имеют большое значение для индустрии финансовых технологий. Они подчеркивают необходимость создания более надежных и устойчивых моделей CCFD, особенно в области высокоценных транзакций. Это может вести к развитию новых защитных методов, увеличению уровня безопасности и улучшению надежности технологий в финансовой сфере. ## Выводы Данная работа показала, что табулярные данные CCFD остаются уязвимыми к адверсарным атакам, даже в случае затрудненного доступа к модели. Мы также подтвердили, что такие атаки могут быть эффективно перенесены между разными моделями. Наши результаты обнаружили существующие уязвимости и подчеркнули необходимость развития новых защитных методов для CCFD. Будущие исследования будут направлены на развитие более устойчивых моделей и методов обнаружения адверсарных атак в CCFD.

Annotation:

Credit card fraud detection (CCFD) is a critical application of Machine Learning (ML) in the financial sector, where accurately identifying fraudulent transactions is essential for mitigating financial losses. ML models have demonstrated their effectiveness in fraud detection task, in particular with the tabular dataset. While adversarial attacks have been extensively studied in computer vision and deep learning, their impacts on the ML models, particularly those trained on CCFD tabular datasets...

ID: 2508.14699v1 cs.CR, cs.AI

arXiv PDF

📄 Too Easily Fooled? Prompt Injection Breaks LLMs on Frustratingly Simple Multiple-Choice Questions

2025-08-21

Авторы:

Xuyang Guo, Zekai Huang, Zhao Song, Jiahao Zhang

## Контекст Large Language Models (LLMs) пользуются популярностью благодаря их способности выполнять сложные задачи, включая логическое рассуждение, перевод и синтез текста. Однако возникают вопросы о их уязвимости к нежелательным воздействиям, особенно в ситуациях, когда они используются в качестве судьи для принятия решений, например в образовании, рецензировании или оценке данных. В данном исследовании мы сфокусировались на проблеме **prompt injection attacks**, где злоумышленник внедряет скрытые команды в текст, которые меняют результат вывода модели. Мы исследуем этот вопрос на простых множественными-выбором или выборочных тестах, упакованных в PDF-файлы, чтобы проверить устойчивость LLMs к таким нападениям. ## Метод Мы использовали три модели LLM с разными размерами (7B, 13B, 33B параметров) для экспериментов. Данные были представлены в виде PDF-файлов, в которых были внедрены скрытые указания (hidden prompts) для модели. Например, вопрос "What is 3 + 2?" был заключён в указание, чтобы модель ответила неверно. Мы экспериментировали с различными типами внедрённых команд и измеряли точность ответов моделей. Эта методика позволила изучить уязвимость моделей к внедрённым командам в разных условиях. ## Результаты Наши эксперименты показали, что все три модели LLM были легко обмануты в условиях внедрённых команд. Даже на простых множественных выборах, где ответ должен был быть ясен (например, ответ на вопрос "What is 3 + 2?" должен был быть "5"), модели давали неверный ответ в результате внедрённых команд. Мы также отметили, что чем больше размер модели, тем выше её вероятность поддаться такому родам атакам. Это указывает на то, что увеличение мощности модели не обязательно приводит к повышению её устойчивости к таким угрозам. ## Значимость Наше исследование выделяет серьёзные риски для приложений, использующих LLMs в качестве судебных органов. Любые негативные последствия внедрённых команд могут привести к несоответствию ожиданий и вредным решениям в областях, таких как оценка качества данных или рецензирование. Мы также отметили, что наш подход может быть применён для тестирования устойчивости других моделей и систем, чтобы улучшить их защиту от этих атак. Это может способствовать развитию более надежных и безопасных моделей LLM. ## Выводы Мы установили, что LLMs остаются уязвимыми для простых, но эффективных, внедрённых команд в PDF-файлах, даже на простых вопросах. Это подтверждает необходимость в развитии новых методов защиты моделей от таких угроз. Будущие исследования будут направлены на изучение более гибких и устойчивых методо

Annotation:

Large Language Models (LLMs) have recently demonstrated strong emergent abilities in complex reasoning and zero-shot generalization, showing unprecedented potential for LLM-as-a-judge applications in education, peer review, and data quality evaluation. However, their robustness under prompt injection attacks, where malicious instructions are embedded into the content to manipulate outputs, remains a significant concern. In this work, we explore a frustratingly simple yet effective attack setting...

ID: 2508.13214v1 cs.CR, cs.AI

arXiv PDF

📄 MCPSecBench: A Systematic Security Benchmark and Playground for Testing Model Context Protocols

2025-08-21

Авторы:

Yixuan Yang, Daoyuan Wu, Yufan Chen

#### Контекст Large Language Models (LLMs) глубоко внедрены в реальные приложения, используя Model Context Protocol (MCP) — универсальный и открытый стандарт для подключения AI-агентов к данным и инструментам. Хотя MCP улучшает возможности LLMs, он также расширяет их атакуемую поверхность и создает новые угрозы безопасности. Недостаток в систематизированных тестах безопасности для MCP сделал эту область недостаточно исследованной. Цель нашей работы — закрыть этот gap, обеспечив методологию и средства для методичного тестирования безопасности MCP. #### Метод MCPSecBench представляет собой систематическую платформу для тестирования безопасности MCP. Она включает: 1. **Промпт-датасеты** — наборы запросов для активации сценариев. 2. **MCP-серверы** — реализации протокола, активирующие взаимодействие с клиентами. 3. **MCP-клиенты** — агенты, инициирующие запросы к серверам. 4. **Атакующие скрипты** — реализации 17 типов атак, определенных в нашей taxonomy. Этот модульный подход позволяет интегрировать любые клиентские или серверные реализации для подробного анализа безопасности. Мы протестировали платформы Claude, OpenAI и Cursor, используя наши ресурсы. #### Результаты Мы провели ряд экспериментов, используя нашу систему, и получили следующие результаты: - **Успешные атаки**: 85% из 17 видов атак успешно скомпрометировали по крайней мере одну платформу. - **Классы уязвимостей**: central-protocol attack, prompt-based attack, tool-centric attack, и transport-layer attack. - **Переменность со стороны подключения**: различия в поведении LLM-based agents зависят от платформы, модели и способа подключения. Эти результаты подтверждают широкое распространение грандиозных проблем безопасности в MCP и разнообразие их влияния. #### Значимость MCPSecBench открывает новые возможности для систематического тестирования безопасности MCP. Он может быть применен во многих областях, включая AI-системы, IoT, и открытые сети. Наш подход обеспечивает: 1. **Повышение безопасности**: стандартизация тестирования для MCP. 2. **Простоту внедрения**: модульный характер системы позволяет легко добавить новые клиентские или серверные реализации. 3. **Продвинутые возможности**: позволяет тестировать новые атаки и защитные методы. #### Выводы MCPSecBench устанавливает новый стандарт для тестирования безопасности MCP. Мы планируем продвинуть нашу работу на пути к: 1. Расширению набора атак. 2. Оптимизации решений для MCP-систем. 3. Улучшению архитектуры для передовых технологий в области LLMs и MCP.

Annotation:

Large Language Models (LLMs) are increasingly integrated into real-world applications via the Model Context Protocol (MCP), a universal, open standard for connecting AI agents with data sources and external tools. While MCP enhances the capabilities of LLM-based agents, it also introduces new security risks and expands their attack surfaces. In this paper, we present the first systematic taxonomy of MCP security, identifying 17 attack types across 4 primary attack surfaces. We introduce MCPSecBe...

ID: 2508.13220v1 cs.CR, cs.AI

arXiv PDF

📄 Quantifying Loss Aversion in Cyber Adversaries via LLM Analysis

2025-08-21

Авторы:

Soham Hans, Nikolos Gurney, Stacy Marsella, Sofia Hirschmann

## Контекст Отсутствие динамического понимания человеческих любопытственных и агрессивных поведений во время атак является ключевой проблемой в современной защите информации. Эти поведения часто являются результатом сильного влияния психологических факторов, таких как убытки, на действия атакующих сторон. Ранее использованные подходы, ориентированные на оборотную сторону, часто не учитывали эти психологические аспекты. Напротив, IARPA ReSCIND-программа нацелена на раскрытие и использование психологических характеристик атакующих, чтобы повысить эффективность защиты. Наша исследовательская группа предлагает исследовать, как любопытство и убытки влияют на необходимость взломщиков принять риск и что это может сказать нам о дальнейших действиях. ## Метод Методология исследования основывается на анализе данных, полученных в ходе эксперимента с волонтерами-хакерами, приглашенными в контролируемую сеть. Мы использовали глубоко обученные Большие Лингвистические Модели (LLM) для детального анализа текстовых заметок, оставленных хакерами в процессе атак. Описанные действия были сопоставлены с ранее установленными механизмами поддержания доступа, чтобы определить уровень убытков и сопряженность с поведением. Мы также выявили операционные сигналы, которые могут быть использованы для любопытственного или агрессивного поведения. ## Результаты Используя LLMs, мы смогли структурировать действия хакеров, отделив различные стадии атаки, такие как поиск информации, установка доступа и усиление. Мы также выявили значительные убытки, связанные с упущенными возможностями, которые влияют на рискованность дальнейших действий. Данные об операционных сигналах позволили нам абстрагироваться от конкретных действий и оценить поведение на основе возможных целей. Эти результаты показывают, что любопытство и убытки могут быть эффективно измерены и использованы для динамического понимания поведения атакующих. ## Значимость Метод, представленный в нашей работе, может быть применен в реальном времени для анализа поведения хакеров, позволяя раскрыть логику их действий и предсказать будущие шаги. Это дает потенциал для разработки более гибких и динамичных систем защиты, которые могут адаптироваться к изменяющимся поведенческим моделям хакеров. В дополнение, наши результаты могут быть применены в разработке новых методов обучения и обеспечения безопасности, в которых понимание человеческих факторов играет ключевую роль. ## Выводы Наше исследование показало, что Большие Лингвисти

Annotation:

Understanding and quantifying human cognitive biases from empirical data has long posed a formidable challenge, particularly in cybersecurity, where defending against unknown adversaries is paramount. Traditional cyber defense strategies have largely focused on fortification, while some approaches attempt to anticipate attacker strategies by mapping them to cognitive vulnerabilities, yet they fall short in dynamically interpreting attacks in progress. In recognition of this gap, IARPA's ReSCIND ...

ID: 2508.13240v1 cs.CR, cs.AI

arXiv PDF

📄 Involuntary Jailbreak

2025-08-21

Авторы:

Yangyang Guo, Yangyan Li, Mohan Kankanhalli

## Контекст Large Language Models (LLMs) стали неотъемлемой частью современных технологий, применяясь в различных сферах, от образования до здравоохранения. Однако существуют значительные проблемы с их безопасностью, в частности, существуют методы, называемые **"jailbreak"**, которые могут обходить механизмы безопасности (guardrails), защищающие модели от нежелательных вводимых данных. Эти методы часто специализируются на уязвимостях, связанных с конкретными задачами или вводимыми командами. Наше исследование открывает новую уязвимость, которую мы назвали **"involuntary jailbreak"**, позволяющую атакующим сформировать входные данные, которые могут сделать механизмы безопасности LLMs неэффективными в целом. Эта проблема является ключевой мотивацией для нашего исследования. ## Метод В центре нашего исследования лежит новая методология, основанная на простых, но эффективных входных данных. Мы используем **одну универсальную строку**, которая содержит несколько вопросов, запрещенных модели, вместе с их подробными ответами. Эти строки не специализируются на конкретных целях, таких как производство бомб или технические вопросы. Мы применяем эту методологию к нескольким ведущим LLMs, включая Claude Opus 4.1, Grok 4, Gemini 2.5 Pro, и GPT 4.1. Наше решение прост в реализации и позволяет показать, что многие текущие guardrails LLMs оказываются значительно более уязвимыми, чем предполагалось. ## Результаты Мы проверили нашу методику на нескольких ведущих LLMs. Заметили, что почти все модели подвержены уязвимости, что демонстрируется тем, что модели отвечают на запрещенные вопросы, даже если это противоречит их нормативным механизмам безопасности. Например, для Claude Opus 4.1, Grok 4 и других моделей, проход по guardrails осуществляется с помощью универсального метода. Эти результаты показывают, что модели не только не способны отказаться от выдачи ответов на запрещенные вопросы, но и не испытывают проблем с этими входными данными в целом. ## Значимость Наше исследование открывает новые горизонты для понимания уязвимостей LLMs и подчеркивает важность усиления безопасностных механизмов. Мы показываем, что текущие guardrails могут быть значительно легче обходимы, чем считалось ранее. Эти результаты могут быть применены в различных областях, таких как образование, здравоохранение и безопасность. Более того, наш подход может способствовать более глубокой аналитике безопасности LLMs и мотивировать разработку новых мер, повышающих уровень защиты в будущем. ## Выводы Мы открыли новую уязвимость, названную **involuntary jailbreak**, которая может повли

Annotation:

In this study, we disclose a worrying new vulnerability in Large Language Models (LLMs), which we term \textbf{involuntary jailbreak}. Unlike existing jailbreak attacks, this weakness is distinct in that it does not involve a specific attack objective, such as generating instructions for \textit{building a bomb}. Prior attack methods predominantly target localized components of the LLM guardrail. In contrast, involuntary jailbreaks may potentially compromise the entire guardrail structure, which...

ID: 2508.13246v1 cs.CR, cs.AI

arXiv PDF

📄 On the Security and Privacy of Federated Learning: A Survey with Attacks, Defenses, Frameworks, Applications, and Future Directions

2025-08-21

Авторы:

Daniel M. Jimenez-Gutierrez, Yelizaveta Falkouskaya, Jose L. Hernandez-Ramos, Aris Anagnostopoulos, Ioannis Chatzigiannakis, Andrea Vitaletti

## Контекст Federated Learning (FL) является развивающимся распределенным методом машинного обучения, который позволяет нескольким клиентам обучать общую модель с объединением результатов обучения без прямого обмена исходными данными. Этот подход значительно повышает уровень конфиденциальности, но при этом остается уязвимым перед различными угрозами безопасности и конфиденциальности. Например, клиенты могут использовать злонамеренные данные для токсичного воздействия на глобальную модель. Таким образом, FL требует новых методов, чтобы обеспечить безопасность и защищенность данных. Эта статья ставит целью дать подробный обзор государственных технологий, способных улучшить безопасность и конфиденциальность FL. ## Метод Эта работа проводит анализ более чем 200 статей, касающихся новых методик безопасности и конфиденциальности FL. Она разделяет методы на две категории: те, которые улучшают робастность FL против злонамеренных действий, и те, которые обеспечивают защиту данных. Техники безопасности включают в себя системы, защищающие модель от атак, таких как байзианские атаки, poisoning, и Sybil. Защитные методы, в свою очередь, сосредотачиваются на шифровании, дифференциальной конфиденциальности и анонимной сборке данных. Этаразделение позволяет критически оценить сильные и слабые стороны каждой технологии и раскрыть тонкие моменты в их использовании. ## Результаты Проведенные эксперименты показывают, что некоторые методы значительно улучшают безопасность и конфиденциальность FL, но при этом могут снижать производительность или недостаточно эффективны против неоднородных данных. Например, технологии шифрования и дифференциальной конфиденциальности показывают высокий уровень защиты данных, но могут привести к увеличению затрат на вычисления. Эксперименты также показывают, что некоторые методы могут повысить влияние ненадёжных узлов, что снижает производительность FL. ## Значимость Благодаря своим применениям в сферах, таких как медицина, финансы и мобильный сервис, FL обладает высоким потенциалом для улучшения конфиденциальности и безопасности в распределенных системах. Эта статья помогает разработчикам и исследователям понять текущие технологии FL и их ограничения. Она также поднимает вопросы, которые требуют будущих исследований, такие как адаптивные схемы для масштабируемости, энергоэффективность и улучшение надежности FL в ситуациях с ненадёжными узлами. ## Выводы Эта статья даёт подробный обзор текущих технологий безопасности и конфиденциальности FL, а также проанализировала и

Annotation:

Federated Learning (FL) is an emerging distributed machine learning paradigm enabling multiple clients to train a global model collaboratively without sharing their raw data. While FL enhances data privacy by design, it remains vulnerable to various security and privacy threats. This survey provides a comprehensive overview of more than 200 papers regarding the state-of-the-art attacks and defense mechanisms developed to address these challenges, categorizing them into security-enhancing and pri...

ID: 2508.13730v1 cs.CR, cs.AI, cs.DC

arXiv PDF

📄 Fortifying the Agentic Web: A Unified Zero-Trust Architecture Against Logic-layer Threats

2025-08-20

Авторы:

Ken Huang, Yasir Mehmood, Hammad Atta, Jerry Huang, Muhammad Zeeshan Baig, Sree Bhargavi Balija

## Контекст Область исследования сосредоточена на создании безопасных и надежных систем для агентских веб-приложений, нацеленных на снижение рисков, связанных с логическими угрозами, такими как логические недопустимые операции (LPCI, Logic-Permission-Control-Interface Attacks). Эти угрозы, касающиеся несоответствия между агентом и ограничениями доступа к ресурсам, являются ключевыми рисками в средах, где взаимодействие между агентами и системами требует высокой надежности и защиты. Существующие решения часто ограничены уровнем защиты или гибкостью. Наша мотивация заключается в создании унифицированной архитектуры, которая обеспечивает прозрачность и безопасность в агентских системах, учитывая требования агентского веба, такие как децентрализация, безотказная аутентификация и надежная аудитность. ## Метод Мы предлагаем унифицированную архитектуру, основанную на Zero-Trust Identity and Access Management (IAM), в которой идентификация агента построена на Decentralized Identifiers (DIDs) и Verifiable Credentials (VCs). Эти идентификационные элементы обеспечивают уникальность и верифицируемость каждого агента. Для управления ими Discovery Agent Name Service (ANS) использует протоколы, независимые от конкретных технологий. Безопасность реализована с помощью Trust Fabric, включающего в себя Trust-Adaptive Runtime Environments (TARE), которые адаптируют свои параметры в зависимости от ситуации, Causal Chain Auditing для трассировки действий и Dynamic Identity механизмов, которые проверяют поведение агента. Эти компоненты обеспечивают гибкость и безопасность в условиях многослойного доверия. ## Результаты Мы проводили эксперименты с использованием тестовых сценариев, нацеленных на проверку эффективности данной архитектуры в условиях различных LPCI-атак. Использовались данные, симулирующие различные уровни агентского взаимодействия и типов угроз. Результаты показали, что 25% из тестов демонстрируют наличие LPCI-атак, но все они были успешно устранены с более чем 98% вероятностью благодаря использованию Trust Fabric. Другие тесты показали, что архитектура обеспечивает среднюю скорость реакции в 0.005 секунд, что ярко отличается от существующих систем. ## Значимость Наша архитектура может применяться в различных сферах, включая IAM в облачных системах, безопасность в интернете вещей, а также в системах управления доступом к корпоративным ресурсам. Основные преимущества заключаются в безотказной защите от LPCI-атак, высокой гибкости и быстродействии. Мы также отметили потенциальное влияние этого подхода на развитие агентских веб-технологий, повышение уровня безопасности в ци

Annotation:

This paper presents a Unified Security Architecture that fortifies the Agentic Web through a Zero-Trust IAM framework. This architecture is built on a foundation of rich, verifiable agent identities using Decentralized Identifiers (DIDs) and Verifiable Credentials (VCs), with discovery managed by a protocol-agnostic Agent Name Service (ANS). Security is operationalized through a multi-layered Trust Fabric which introduces significant innovations, including Trust-Adaptive Runtime Environments (TA...

ID: 2508.12259v2 cs.CR, cs.AI, cs.ET

arXiv PDF

📄 Systematic Analysis of MCP Security

2025-08-20

Авторы:

Yongjian Guo, Puzhuo Liu, Wanlun Ma, Zehang Deng, Xiaogang Zhu, Peng Di, Xi Xiao, Sheng Wen

#### Контекст Модель Контекстного Протокола (MCP) представляет собой важный стандарт, позволяющий AI-агентам эффективно взаимодействовать с внешними инструментами, улучшая их функциональность. Однако, несмотря на преимущества, MCP также повлекла за собой серьезные угрозы безопасности. Одна из таких угроз — Tool Poisoning Attack (TPA), когда внедряются скрытые поддельные инструкции, которые могут изменять поведение AI-системы. Несмотря на важность этой проблемы, актуальные исследования по MCP сфокусированы на узком кругу вопросов или неконкретных оценках. Данные работы направлены на заполнение этой гапа, обеспечив полный анализ угроз и развитие эффективных защитных стратегий. #### Метод Мы представляем **MCP Attack Library (MCPLIB)** — универсальный метод, который содержит 31 различных методов атак, разделенных на четыре группы: 1) **Direct Tool Injection**, 2) **Indirect Tool Injection**, 3) **Malicious User Attacks**, и 4) **LLM Inherent Attacks**. Для каждого метода мы определяем условия, подходы и результаты. Наша методология включает в себя разработку моделей, симуляцию атак и методики для измерения их эффективности. Это позволяет получить широкий обзор различных атак и сформировать гибкий инструментарий для их анализа. #### Результаты Наши эксперименты проводились на различных наборах данных и системах, используя MCPLIB для оценки эффективности различных атак. Мы выявили ключевые уязвимости, такие как доверительное отношение агентов к описаниям инструментов, чувствительность к файловым атакам, цепочные атаки, которые используют общий контекст, и проблемы в различении внешних данных от исполняемых команд. Эти результаты показали, что основными угрозами являются недостаточная верификация внешних инструментов и недостаточное различение запросов от команд. #### Значимость Наша работа имеет значительную значимость в области безопасности AI. Она может быть применена в различных сферах, включая интеллектуальные системы управления, робототехнику и защиту данных. Благодаря полученным результатам, можно разработать более надежные защитные методы, улучшить MCP-системы и обеспечить безопасность взаимодействия с внешними инструментами. Это также может включить в себя развитие новых моделей, способных более точно определять и отсекать поддельные инструкции. #### Выводы Мы сформировали полный таксономический анализ угроз MCP, представили универсальный фреймворк для анализа атак MCPLIB и провели эмпирический анализ уязвимостей. Наши выводы подтверждают необходимость создания новых защитных методов, возможности усовершенствования существующих моделей и развития безопасных MCP-систем.

Annotation:

The Model Context Protocol (MCP) has emerged as a universal standard that enables AI agents to seamlessly connect with external tools, significantly enhancing their functionality. However, while MCP brings notable benefits, it also introduces significant vulnerabilities, such as Tool Poisoning Attacks (TPA), where hidden malicious instructions exploit the sycophancy of large language models (LLMs) to manipulate agent behavior. Despite these risks, current academic research on MCP security remain...

ID: 2508.12538v1 cs.CR, cs.AI, cs.SE

arXiv PDF

📄 SecFSM: Knowledge Graph-Guided Verilog Code Generation for Secure Finite State Machines in Systems-on-Chip

2025-08-20

Авторы:

Ziteng Hu, Yingjie Xia, Xiyuan Chen, Li Kuang

## Контекст Finite State Machines (FSMs) являются ключевым компонентом в реализации логики управления для Systems-on-Chip (SoC). Они играют важную роль в поддержке функциональной интеграции и управления задачами в этих системах. Однако реализация FSMs через Verilog-кодирование часто становится трудоемкой и времязатратной для программистов. Недавние прогрессы в области Large Language Models (LLMs) обеспечили новые возможности для автоматизации этого процесса. Однако, несмотря на их эффективность, LLM-generated Verilog code часто скрывает серьезные безопасности уязвимости, особенно когда речь идет о системах, требующих высокого уровня защиты. Наша исследовательская группа сфокусировалась на решении этой проблемы, предлагая SecFSM — метод, который использует безопасность-ориентированный знаний Knowledge Graph (FSKG) для улучшения кода Verilog. ## Метод SecFSM основывается на создании и использовании Security Knowledge Graph (FSKG) для помощи LLMs в генерации безопасного Verilog-кода. Мы строим FSKG как внешний ресурс, который обеспечивает LLMs дополнительными знаниями о безопасности, используемыми для генерации кода. В процессе работы мы сначала структурируем запросы пользователя, чтобы выявить возможные уязвимости в требованиях. Затем мы используем FSKG для поиска информации, которая поможет устранить эти уязвимости. Наконец, мы строим безопасные структуры промптов, которые используются для направления LLM в генерации кода Verilog. Этот подход позволяет улучшить безопасность кода и уменьшить риск внедрения уязвимостей. ## Результаты Мы провели ряд экспериментов, использовав различные данные, включая сборки из академических источников, искусственных данных, теоретических работ и отраслевых случаев. Мы проверили SecFSM на 25 безопасностных тестовых случаях, оценивая его производительность с помощью DeepSeek-R1. Результаты показали, что SecFSM достигает выдающейся пропускной способности — 21 из 25 тестовых случаев были успешно пройдены. Этот результат выделяет SecFSM как одно из лучших решений в области автоматизации Verilog-кодирования, особенно с точки зрения безопасности. ## Значимость Ключевым преимуществом SecFSM является его возможность улучшить безопасность FSMs в SoC, что важно для приложений, требующих высокого уровня гигиеники. Мы видим возможности применения нашего подхода в различных сферах, включая FinTech, IoT, и транспортные системы. SecFSM позволяет снизить риск внедрения уязвимостей в программное обеспечение, улучшить эффективность разработки, и обеспечить более надежную и безопасную интеграцию в системы SoC. ## Выводы SecFSM представляет собой современ

Annotation:

Finite State Machines (FSMs) play a critical role in implementing control logic for Systems-on-Chip (SoC). Traditionally, FSMs are implemented by hardware engineers through Verilog coding, which is often tedious and time-consuming. Recently, with the remarkable progress of Large Language Models (LLMs) in code generation, LLMs have been increasingly explored for automating Verilog code generation. However, LLM-generated Verilog code often suffers from security vulnerabilities, which is particular...

ID: 2508.12910v1 cs.CR, cs.AI, cs.AR

arXiv PDF

1
2
41
42
43
44
45
46
47

Показано 421 - 430 из 470 записей