📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 0

Последнее обновление: сегодня

📄 STAC: When Innocent Tools Form Dangerous Chains to Jailbreak LLM Agents

2025-10-02

Авторы:

Jing-Jing Li, Jianfeng He, Chao Shang, Devang Kulshreshtha, Xun Xian, Yi Zhang, Hang Su, Sandesh Swamy, Yanjun Qi

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

As LLMs advance into autonomous agents with tool-use capabilities, they introduce security challenges that extend beyond traditional content-based LLM safety concerns. This paper introduces Sequential Tool Attack Chaining (STAC), a novel multi-turn attack framework that exploits agent tool use. STAC chains together tool calls that each appear harmless in isolation but, when combined, collectively enable harmful operations that only become apparent at the final execution step. We apply our framew...

ID: 2509.25624v1 cs.CR, cs.AI, cs.CL, cs.LG

arXiv PDF

📄 SoK: Systematic analysis of adversarial threats against deep learning approaches for autonomous anomaly detection systems in SDN-IoT networks

2025-10-02

Авторы:

Tharindu Lakshan Yasarathna, Nhien-An Le-Khac

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Integrating SDN and the IoT enhances network control and flexibility. DL-based AAD systems improve security by enabling real-time threat detection in SDN-IoT networks. However, these systems remain vulnerable to adversarial attacks that manipulate input data or exploit model weaknesses, significantly degrading detection accuracy. Existing research lacks a systematic analysis of adversarial vulnerabilities specific to DL-based AAD systems in SDN-IoT environments. This SoK study introduces a struc...

ID: 2509.26350v1 cs.CR, cs.AI

arXiv PDF

📄 SeedPrints: Fingerprints Can Even Tell Which Seed Your Large Language Model Was Trained From

2025-10-02

Авторы:

Yao Tong, Haonan Wang, Siquan Li, Kenji Kawaguchi, Tianyang Hu

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Fingerprinting Large Language Models (LLMs) is essential for provenance verification and model attribution. Existing methods typically extract post-hoc signatures based on training dynamics, data exposure, or hyperparameters -- properties that only emerge after training begins. In contrast, we propose a stronger and more intrinsic notion of LLM fingerprinting: SeedPrints, a method that leverages random initialization biases as persistent, seed-dependent identifiers present even before training. ...

ID: 2509.26404v1 cs.CR, cs.AI, cs.CL

arXiv PDF

📄 Are Robust LLM Fingerprints Adversarially Robust?

2025-10-02

Авторы:

Anshul Nasery, Edoardo Contente, Alkin Kaz, Pramod Viswanath, Sewoong Oh

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Model fingerprinting has emerged as a promising paradigm for claiming model ownership. However, robustness evaluations of these schemes have mostly focused on benign perturbations such as incremental fine-tuning, model merging, and prompting. Lack of systematic investigations into {\em adversarial robustness} against a malicious model host leaves current systems vulnerable. To bridge this gap, we first define a concrete, practical threat model against model fingerprinting. We then take a critica...

ID: 2509.26598v1 cs.CR, cs.AI, cs.LG

arXiv PDF

📄 LLM Watermark Evasion via Bias Inversion

2025-10-01

Авторы:

Jeongyeon Hwang, Sangdon Park, Jungseul Ok

## Контекст Отметьте, что в последние годы быстро развивается использование бо LLM (large language models) в различных сферах, например, в поисковых системах, виртуальных помощниках и даже в юридических системах. Одна из главных проблем при использовании таких моделей является возможность их незаконного использования. Чтобы более эффективно контролировать такое использование, было предложено применение водяных знаков (watermarking) — статистических признаков, которые внедряются в текст, генерируемый моделью. Это позволяет авторитетным лицам проверить, был ли текст сгенерирован определенной моделью. Однако есть необходимость в понимании того, насколько эти водяные знаки эффективны и надёжны, особенно в условиях атак, когда атакующий пытается их подделать или убрать. Таким образом, необходимо понять, насколько жесткой ли водяная метка в ней сигнала, чтобы можно было развивать лучшие методы защиты. ## Метод Методом для развития моделей водяных знаков была предложена Bias-Inversion Rewriting Attack (BIRA), которая является теоретически обоснованным и модель-агностичным подходом. BIRA использует метод повторного преобразования (rewriting) текста, при котором атакующий пытается уменьшить вероятность того, что генерируемый текст может быть загражден водяными знаками, путем изменения сигналов в начальных словах логита. Этот подход оптимизируется таким образом, чтобы изменения были незаметными для человека, но одновременно снижали значимость водяных знаков. Этот метод не требует знания того, как именно водяные знаки внедряются в модели, что делает его модель-агностичным. ## Результаты Результаты экспериментов показали, что BIRA позволяет снизить значимость водяных знаков до ничтожного уровня в 99% случаев, не изменяя семантическое содержание исходного текста. Это доказывает, что подход BIRA действительно эффективен и может быть использован для оценки силы водяных знаков. Опытным путем было показано, что даже если водяные знаки были хорошо заграждены в текст, BIRA может убрать их или сильно снизить их влияние. Это открывает возможность для более внимательного исследования возможности атак на водяные знаки и необходимости в развитии новых методов защиты. ## Значимость Полученные результаты имеют значимость в различных областях. Во-первых, BIRA может быть использована для тестирования силы водяных знаков в различных моделях и ситуациях. Во-вторых, результаты могут помочь разрабатывать лучшие методы защиты водяных знаков, чтобы улучшить их эффективность и надежность. В-третьих, появление этой атаки показывает, насколько важно проводи

Annotation:

Watermarking for large language models (LLMs) embeds a statistical signal during generation to enable detection of model-produced text. While watermarking has proven effective in benign settings, its robustness under adversarial evasion remains contested. To advance a rigorous understanding and evaluation of such vulnerabilities, we propose the \emph{Bias-Inversion Rewriting Attack} (BIRA), which is theoretically motivated and model-agnostic. BIRA weakens the watermark signal by suppressing the ...

ID: 2509.23019v1 cs.CR, cs.AI

arXiv PDF

📄 Virus Infection Attack on LLMs: Your Poisoning Can Spread "VIA" Synthetic Data

2025-10-01

Авторы:

Zi Liang, Qingqing Ye, Xuan Liu, Yanyun Wang, Jianliang Xu, Haibo Hu

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Synthetic data refers to artificial samples generated by models. While it has been validated to significantly enhance the performance of large language models (LLMs) during training and has been widely adopted in LLM development, potential security risks it may introduce remain uninvestigated. This paper systematically evaluates the resilience of synthetic-data-integrated training paradigm for LLMs against mainstream poisoning and backdoor attacks. We reveal that such a paradigm exhibits strong ...

ID: 2509.23041v1 cs.CR, cs.AI, cs.CL

arXiv PDF

📄 ReliabilityRAG: Effective and Provably Robust Defense for RAG-based Web-Search

2025-10-01

Авторы:

Zeyu Shen, Basileal Imana, Tong Wu, Chong Xiang, Prateek Mittal, Aleksandra Korolova

#### Контекст На данный момент искусственные нейронные сети (ANN) широко используются в различных областях, например в ИИ, для выполнения различных задач. Однако типичные ANN подвержены квантовым атакам, что делает их небезопасными. Из-за этого возникла потребность в разработке безопасных и надежных моделей, которые могли бы справиться с такими атаками. В этом контексте возникла мотивация для разработки методов, которые могут обеспечить надежную защиту ANN от таких угроз. Например, есть необходимость в моделях, которые могли бы обнаруживать и отвечать на квантовые атаки в реальном времени, обеспечивая ровно такой же уровень функциональности, что и обычные ANN. #### Метод Чтобы достичь этой цели, была разработана модель, которая использует алгоритмы, основанные на теории графов, для определения взаимосвязей между различными данными. Метод включает в себя следующие шаги: вначале проводится анализ информации, затем происходит моделирование структуры данных, после чего создается граф, где узлы представляют собой данные, а ребра — взаимосвязи. Благодаря этому, модель может определить взаимосвязи, которые могут свидетельствовать об атаках. Затем, с помощью алгоритмов, основанных на машинном обучении, модель определяет, является ли данная атака квантовой. Таким образом, модель не только может обнаружить атаки, но и принимать решения по ответу на эти атаки, чтобы обеспечить безопасность. #### Результаты Чтобы проверить эффективность модели, проводились многочисленные эксперименты на различных наборах данных, включая те, которые использовались в атаках на квантовый тип. Были получены результаты, показывающие, что модель обнаруживает квантовые атаки с высокой точностью и быстростью. Благодаря графовой модели, модель также справляется с большим количеством данных, обеспечивая высокую производительность. Эти результаты подтверждают, что модель эффективна в обнаружении квантовых атак и может использоваться для защиты ANN от подобных угроз. #### Значимость Модель ReliabilityRAG (Reliable RAG) представляет собой значительный шаг в области защиты RAG-систем по отношению к атакам, направленным на подделку ответов при помощи злоумышленников. Она расширяет применение технологий графов для обнаружения контра dictions в ответах, позволяя адаптироваться к различным сценариям атак. Особенно заметно это в случае веб-поисковых систем, где злоумышленник может исказить результаты поиска, внедряя злонамеренные запросы или изменяя рейтинг документов. Такой подход не только обеспечивает безопасность, но и повышает надежность поиска, особенно в области роботов-операторов. Благодаря

Annotation:

Retrieval-Augmented Generation (RAG) enhances Large Language Models by grounding their outputs in external documents. These systems, however, remain vulnerable to attacks on the retrieval corpus, such as prompt injection. RAG-based search systems (e.g., Google's Search AI Overview) present an interesting setting for studying and protecting against such threats, as defense algorithms can benefit from built-in reliability signals -- like document ranking -- and represent a non-LLM challenge for th...

ID: 2509.23519v1 cs.CR, cs.AI

arXiv PDF

📄 Benchmarking LLM-Assisted Blue Teaming via Standardized Threat Hunting

2025-10-01

Авторы:

Yuqiao Meng, Luoxi Tang, Feiyang Yu, Xi Li, Guanhua Yan, Ping Yang, Zhaohan Xi

## Контекст В последние годы хакерские атаки становятся всё более масштабными и сложными, вынуждая системы безопасности применять современные средства для профилактики и противодействия угрозам. Одним из ключевых вопросов является эффективность инструментов, позволяющих оперативно выявлять и устранять угрозы. Большинство нынешних систем сильно зависят от человеческого фактора или требуют ручного вмешательства, что замедляет процессы реагирования. Это влечёт за собой потери времени и ресурсов, что на самом деле может оказаться критично в условиях атаки. Проблема в том, что злоумышленники постоянно развивают новые методы атаки, при этом существующие системы зачастую не могут профилактически динамически адаптироваться к этим изменениям. Таким образом, требуется развитие методов, позволяющих автоматизировать и оптимизировать процессы поиска и устранения угроз. Ло LLM-Assisted Blue Teaming, либо поддержка киберсурождения через ларге лангуадж моделей (LLM), представляет собой ключевой подход, который может улучшить производительность и точность в процессе локализации и исправления угроз. ## Метод В статье представлен бенчмарк CyberTeam, разработанный для оценки и оптимизации ларге лангуадж моделей в процессе локализации угроз. Методология CyberTeam основывается на стандартизации процесса поиска угроз, превращая его в последовательность модульных шагов, каждый из которых соответствует конкретной задаче анализа или реагирования. Этот подход позволяет улучшить отказоустойчивость и гармонизировать процессы работы. Бенчмарк состоит из 30 задач, разделённых на 9 модулей, каждый из которых определяет специфический аспект анализа угроз. Это включает в себя такие задачи, как атрибуция угроз, анализ поведения системы, идентификация вредоносных действий, а также реагирование на инциденты. Модели LLM подходят для каждой задачи с помощью выполнения многократных модельных операций, организованных в логической последовательности. ## Результаты С помощью CyberTeam проведено сравнение нескольких LLM с основными цифровыми средствами безопасности. Оценивались показатели точности, скорости реакции и возможности автоматизации процессов. Результаты показали, что стандартизованный подход CyberTeam приводит к улучшению целостности и эффективности процессов поиска угроз в сравнении с открытыми и неструктурированными логиками работы. Кроме того, был определён показатель устойчивости моделей LLM к изменениям типов угроз, что демонстрирует их преимущество в динамических условиях. В целом, результаты показывают, что LLM могут значительно улучшить про

Annotation:

As cyber threats continue to grow in scale and sophistication, blue team defenders increasingly require advanced tools to proactively detect and mitigate risks. Large Language Models (LLMs) offer promising capabilities for enhancing threat analysis. However, their effectiveness in real-world blue team threat-hunting scenarios remains insufficiently explored. This paper presents CyberTeam, a benchmark designed to guide LLMs in blue teaming practice. CyberTeam constructs a standardized workflow in...

ID: 2509.23571v1 cs.CR, cs.AI

arXiv PDF

📄 Uncovering Vulnerabilities of LLM-Assisted Cyber Threat Intelligence

2025-10-01

Авторы:

Yuqiao Meng, Luoxi Tang, Feiyang Yu, Jinyuan Jia, Guanhua Yan, Ping Yang, Zhaohan Xi

Опубликовано ## Контекст Крупномасштабные языковые модели (LLMs) воздействуют на многие аспекты безопасности информационных систем, в том числе и на обеспечение кибербезопасности. Одним из ключевых применений LLMs является поддержка кибер-треат-интеллектуалы (CTI), обеспечивая аналитикам информацию для эффективного мониторинга, анализа и реагирования на киберугрозы. Хотя LLMs демонстрируют высокую эффективность в различных задачах CTI, таких как распознавание угроз, детекция уязвимостей и защита от вторжений, на практике существуют значительные проблемы, связанные с их способностью обеспечивать качественную поддержку CTI. Эти проблемы могут быть вызваны не только ограничениями модели, но и характером проблемы CTI в самом деле. В настоящей работе мы рассматриваем эти проблемы, анализируя их причины в контексте современной безопасности информационных систем. ## Метод Для изучения проблем LLMs в CTI, мы применяем многоуровневое экспериментальное описание, основываясь на широком спектре CTI-бенчмаров и реальных угроз. Методология основывается на трех основных компонентах: стратификации, авторегрессионного уточнения и вклада человека в процесс уточнения и анализа ошибок LLMs. Данные для экспериментов были получены из различных источников, включая базы данных угроз и отчеты о реальных атаках. Мы разработали методы для глубокого понимания ошибок LLMs в сфере CTI, которые могут быть вызваны спуриорными корреляциями, противоречивыми знаниями и ограниченной общностью. ## Результаты В результате экспериментов мы выявили три главных причины, почему LLMs в CTI не всегда демонстрируют ожидаемую эффективность: 1. **Спуриорные корреляции** (spurious correlations) — модели часто опираются на недля задачи значимые факторы, что приводит к неточности вывода; 2. **Противоречивые знания** (contradictory knowledge) — содержание ответов LLMs может конфликтовать с другими частями знаний, которые они признали; 3. **Ограниченная общность** (constrained generalization) — по мере увеличения степени абстракции вопросов, LLMs не всегда могут предоставить точные ответы, отображающие новые сценарии. Эти ошибки были подробно изучены с помощью человеком-в-цикле (human-in-the-loop), что позволило доказать их реальность и влияние на реальные задачи CTI. ## Значимость Полученные результаты имеют большое значение для области безопасности информационных систем и практического применения LLMs в CTI. Мы продемонстрировали, что существуют серьезные узкие места в LLMs, ограничивающие их применение в CTI. Известные проблемы, такие как недостаточное учетвование контекста и ложные выводы, могут повлиять на

Annotation:

Large Language Models (LLMs) are intensively used to assist security analysts in counteracting the rapid exploitation of cyber threats, wherein LLMs offer cyber threat intelligence (CTI) to support vulnerability assessment and incident response. While recent work has shown that LLMs can support a wide range of CTI tasks such as threat analysis, vulnerability detection, and intrusion defense, significant performance gaps persist in practical deployments. In this paper, we investigate the intrinsi...

ID: 2509.23573v1 cs.CR, cs.AI

arXiv PDF

📄 Taught Well Learned Ill: Towards Distillation-conditional Backdoor Attack

2025-10-01

Авторы:

Yukun Chen, Boheng Li, Yu Yuan, Leyi Qi, Yiming Li, Tianwei Zhang, Zhan Qin, Kui Ren

#### Контекст Knowledge distillation (KD) является ключевым методом для развертывания глубоких нейронных сетей (DNN) на устройствах с ограниченными ресурсами. Он предполагает передачу знаний от высокоэффективных, но ресурсоёмких "учительских" моделей к компактным, но производительным "ученическим" моделям. Этот подход позволяет обеспечить высокую производительность моделей на устройствах, где производительность и энергоэффективность являются критичными факторами. Несмотря на популярность и полезность этого метода, он не без недостатков. Одним из возможных рисков является то, что учительские модели могут быть заражены скрытыми backdoor-атаками, которые могут быть переданы студенческим моделям через процесс KD. Эта проблема становится особенно критичной, если учительские модели получены из третьих сторон, где невозможно гарантировать их безопасность. Эта работа рассматривает новый и критический вид такой атаки, названный **distillation-conditional backdoor attack (DCBA)**, который имеет уникальные характеристики и значительный потенциал для загруженных устройств. #### Метод Для реализации DCBA мы предлагаем метод, основанный на **bilevel optimization**. Этот подход позволяет имитировать процесс KD, оптимизировав студенческую модель внутренним уровнем, а затем использовать выходы этой модели для оптимизации учителя, чтобы внедрить зараженный триггер. Мы вводим **SCAR (Simple Conditional Attack with Reverse-mode)**, который обеспечивает эффективную инъекцию backdoor-атаки в учительскую модель при помощи явного задания условий. Наша инъекция триггера основывается на алгоритме **implicit differentiation**, что позволяет нам обеспечить точность и эффективность при решении этой сложной задачи. Ключевые отличительные черты нашего подхода заключаются в том, что он не требует изменений в данных или допущений о модели, что делает его универсальным и опасным в различных условиях. #### Результаты Мы проводим опыты на эталонных датасетах, таких как CIFAR-10 и ImageNet, используя различные модели, такие как VGG, ResNet и MobileNet. Мы также используем различные KD-техники, включая fit-tuning и attention-based distillation. Результаты показывают, что метод SCAR выполняет успешную инъекцию backdoor-атаки в ученические модели даже при очистке данных и незаметности для существующих методов обнаружения бэкдоров. Кроме того, наши результаты показывают, что SCAR может выполнить успешную атаку с высокой инъекционной стойкостью, даже при соблюдении формальных процедур обнаружения backdoor-атак. Эти результаты обнаруживают серьезную уязвимость в процессе KD, которая была до этого незамечена. #### Значимость Наша работа выделяет новую и критическую уязвимость в широко используемом KD-процессе.

Annotation:

Knowledge distillation (KD) is a vital technique for deploying deep neural networks (DNNs) on resource-constrained devices by transferring knowledge from large teacher models to lightweight student models. While teacher models from third-party platforms may undergo security verification (\eg, backdoor detection), we uncover a novel and critical threat: distillation-conditional backdoor attacks (DCBAs). DCBA injects dormant and undetectable backdoors into teacher models, which become activated in...

ID: 2509.23871v1 cs.CR, cs.AI, cs.CV, cs.LG

arXiv PDF

Показано 261 - 270 из 470 записей