📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 VelLMes: A high-interaction AI-based deception framework

2025-10-10

Авторы:

Muris Sladić, Veronica Valeros, Carlos Catania, Sebastian Garcia

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

There are very few SotA deception systems based on Large Language Models. The existing ones are limited only to simulating one type of service, mainly SSH shells. These systems - but also the deception technologies not based on LLMs - lack an extensive evaluation that includes human attackers. Generative AI has recently become a valuable asset for cybersecurity researchers and practitioners, and the field of cyber-deception is no exception. Researchers have demonstrated how LLMs can be leveraged...

ID: 2510.06975v1 cs.CR, cs.AI, cs.CL

arXiv PDF

📄 Towards Reliable and Practical LLM Security Evaluations via Bayesian Modelling

2025-10-09

Авторы:

Mary Llewellyn, Annie Gray, Josh Collyer, Michael Harries

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Before adopting a new large language model (LLM) architecture, it is critical to understand vulnerabilities accurately. Existing evaluations can be difficult to trust, often drawing conclusions from LLMs that are not meaningfully comparable, relying on heuristic inputs or employing metrics that fail to capture the inherent uncertainty. In this paper, we propose a principled and practical end-to-end framework for evaluating LLM vulnerabilities to prompt injection attacks. First, we propose practi...

ID: 2510.05709v1 cs.CR, cs.AI, cs.CL

arXiv PDF

📄 P2P: A Poison-to-Poison Remedy for Reliable Backdoor Defense in LLMs

2025-10-08

Авторы:

Shuai Zhao, Xinyi Wu, Shiqian Zhao, Xiaobao Wu, Zhongliang Guo, Yanhao Jia, Anh Tuan Luu

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

During fine-tuning, large language models (LLMs) are increasingly vulnerable to data-poisoning backdoor attacks, which compromise their reliability and trustworthiness. However, existing defense strategies suffer from limited generalization: they only work on specific attack types or task settings. In this study, we propose Poison-to-Poison (P2P), a general and effective backdoor defense algorithm. P2P injects benign triggers with safe alternative labels into a subset of training samples and fin...

ID: 2510.04503v1 cs.CR, cs.AI, cs.CL

arXiv PDF

📄 WAInjectBench: Benchmarking Prompt Injection Detections for Web Agents

2025-10-04

Авторы:

Yinuo Liu, Ruohan Xu, Xilong Wang, Yuqi Jia, Neil Zhenqiang Gong

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Multiple prompt injection attacks have been proposed against web agents. At the same time, various methods have been developed to detect general prompt injection attacks, but none have been systematically evaluated for web agents. In this work, we bridge this gap by presenting the first comprehensive benchmark study on detecting prompt injection attacks targeting web agents. We begin by introducing a fine-grained categorization of such attacks based on the threat model. We then construct dataset...

ID: 2510.01354v1 cs.CR, cs.AI, cs.CL

arXiv PDF

📄 Position: Privacy Is Not Just Memorization!

2025-10-04

Авторы:

Niloofar Mireshghallah, Tianshi Li

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

The discourse on privacy risks in Large Language Models (LLMs) has disproportionately focused on verbatim memorization of training data, while a constellation of more immediate and scalable privacy threats remain underexplored. This position paper argues that the privacy landscape of LLM systems extends far beyond training data extraction, encompassing risks from data collection practices, inference-time context leakage, autonomous agent capabilities, and the democratization of surveillance thro...

ID: 2510.01645v1 cs.CR, cs.AI, cs.CL, cs.LG

arXiv PDF

📄 STAC: When Innocent Tools Form Dangerous Chains to Jailbreak LLM Agents

2025-10-02

Авторы:

Jing-Jing Li, Jianfeng He, Chao Shang, Devang Kulshreshtha, Xun Xian, Yi Zhang, Hang Su, Sandesh Swamy, Yanjun Qi

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

As LLMs advance into autonomous agents with tool-use capabilities, they introduce security challenges that extend beyond traditional content-based LLM safety concerns. This paper introduces Sequential Tool Attack Chaining (STAC), a novel multi-turn attack framework that exploits agent tool use. STAC chains together tool calls that each appear harmless in isolation but, when combined, collectively enable harmful operations that only become apparent at the final execution step. We apply our framew...

ID: 2509.25624v1 cs.CR, cs.AI, cs.CL, cs.LG

arXiv PDF

📄 SeedPrints: Fingerprints Can Even Tell Which Seed Your Large Language Model Was Trained From

2025-10-02

Авторы:

Yao Tong, Haonan Wang, Siquan Li, Kenji Kawaguchi, Tianyang Hu

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Fingerprinting Large Language Models (LLMs) is essential for provenance verification and model attribution. Existing methods typically extract post-hoc signatures based on training dynamics, data exposure, or hyperparameters -- properties that only emerge after training begins. In contrast, we propose a stronger and more intrinsic notion of LLM fingerprinting: SeedPrints, a method that leverages random initialization biases as persistent, seed-dependent identifiers present even before training. ...

ID: 2509.26404v1 cs.CR, cs.AI, cs.CL

arXiv PDF

📄 Virus Infection Attack on LLMs: Your Poisoning Can Spread "VIA" Synthetic Data

2025-10-01

Авторы:

Zi Liang, Qingqing Ye, Xuan Liu, Yanyun Wang, Jianliang Xu, Haibo Hu

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Synthetic data refers to artificial samples generated by models. While it has been validated to significantly enhance the performance of large language models (LLMs) during training and has been widely adopted in LLM development, potential security risks it may introduce remain uninvestigated. This paper systematically evaluates the resilience of synthetic-data-integrated training paradigm for LLMs against mainstream poisoning and backdoor attacks. We reveal that such a paradigm exhibits strong ...

ID: 2509.23041v1 cs.CR, cs.AI, cs.CL

arXiv PDF

📄 You Can't Steal Nothing: Mitigating Prompt Leakages in LLMs via System Vectors

2025-09-30

Авторы:

Bochuan Cao, Changjiang Li, Yuanpu Cao, Yameng Ge, Ting Wang, Jinghui Chen

Название: You Can't Steal Nothing: Mitigating Prompt Leakages in LLMs via System Vectors ## Контекст Large language models (LLMs) признаны стандартом в области искусственного интеллекта для выполнения различных задач. Однако, по мере расширения их применения, появляются новые проблемы, в том числе риск вытекания системных запросов (prompt leakage). Такой вид утечек нарушает безопасность и может привести к утечке конфиденциальных данных. Защита от таких проблем становится все более важной для развития моделей LLM на безопасных и эффективных технологиях. ## Метод Авторы предлагают SysVec — метод, который представляет системные запросы не как текст, а в виде внутренних векторных представлений. Это позволяет скрыть запросы от внешних атак и сохранить все функциональные возможности модели. Во время обучения и использования модели вводится специальная модификация системного запроса, которая не только защищает данные, но также улучшает общее поведение модели. ## Результаты Проведенные эксперименты показывают, что SysVec эффективно минимизирует риск утечки системных запросов. Модель демонстрирует улучшенную устойчивость к различным атакам, в том числе тем, которые ранее были успешны против других LLM-моделей. Эксперименты проводились на моделях GPT-4o и Claude 3.5 Sonnet, и результаты показали, что SysVec не только защищает данные, но и повышает качество выполнения задач, в том числе в сценариях с длинными контекстами. ## Значимость Систематические риски утечки системных запросов нарушают безопасность и могут привести к нежелательным последствиям. SysVec предлагает новый подход к решению этой проблемы, обеспечивая безопасность и сохранение функциональности моделей. Это может быть применено в различных областях, где требуется безопасный интеллектуальный анализ данных, таких как медицина, финансы и юридические системы. Будущие исследования будут направлены на усовершенствование метода и его использование в современных системах LLM. ## Выводы Основным достижением является представление системных запросов в виде внутренних векторных представлений, что позволяет защитить данные и повысить эффективность моделей. Будущие исследования будут уделять внимание улучшению этих технологий для их применения в безопасных системах с большим объемом данных.

Annotation:

Large language models (LLMs) have been widely adopted across various applications, leveraging customized system prompts for diverse tasks. Facing potential system prompt leakage risks, model developers have implemented strategies to prevent leakage, primarily by disabling LLMs from repeating their context when encountering known attack patterns. However, it remains vulnerable to new and unforeseen prompt-leaking techniques. In this paper, we first introduce a simple yet effective prompt leaking ...

ID: 2509.21884v1 cs.CR, cs.AI, cs.CL

arXiv PDF

📄 Every Character Counts: From Vulnerability to Defense in Phishing Detection

2025-09-26

Авторы:

Maria Chiper, Radu Tudor Ionescu

## Контекст Phishing — это подмена авторитетного источника со склонностью к мошенничеству, направленная на извлечение чувствительных данных от пользователей. Несмотря на развитие технологий, phishing-атаки остаются одной из самых активных угроз в интернет-безопасности. Они направлены как на физические, так и на юридические лица. Данное исследование фокусируется на разработке эффективных методов по детектированию phishing-атак. Основная проблема заключается в том, что существующие методы часто недостаточно точны и не обладают транспарентностью, что снижает их надежность. Это компрометирует их применение в реальных ситуациях. Мотивация заключается в разработке моделей, которые обеспечат высокую точность, гибкость и понятность решений. ## Метод Для детектирования phishing-атак используются модели, оперирующие на уровне символов (character-level). Три модели, использованные в исследовании, включают: CharCNN (Convolutional Neural Network), CharGRU (Gated Recurrent Unit) и CharBiLSTM (Bidirectional Long Short-Term Memory). Модели адаптированы для анализа текста на уровне символов. Использованная для обучения и тестирования датасет состоит из электронных писем, собранных из различных источников. Эталонные модели сравниваются в трех сценариях: (i) стандартном обучении и тестировании, (ii) обучении стандартными данными и тестировании с адверсарными атаками и (iii) обучении с адверсарными примерами и тестировании. Для оценки вычислительной эффективности используется строгая ограниченная модель, которая может быть реализована в виде браузерного расширения. ## Результаты Для стандартного сценария все модели показали высокую точность, но CharGRU (Char-GRU) проявил себя как самая удачная модель в последних двух сценариях. Все модели оказались восприимчивы к адверсарным атакам, но повышение результатов при добавлении адверсарного обучения позволило значительно улучшить их устойчивость. Для улучшения понимания решений моделей, внедрена техника Gradient-weighted Class Activation Mapping (Grad-CAM), позволяющая визуализировать вклад каждого символа в вывод модели. Эта возможность дает пользователям большее уверенность в работе моделей. ## Значимость Результаты имеют большое значение для различных областей, включая безопасность интернета, технологии мониторинга и автоматического анализа электронной почты. Детальный подробный анализ позволяет понять, какие аспекты каждого письма влияют на вывод моделей. Этот подход может быть применен в браузерных расширениях, предотвращающих phishing-атаки, и дает возможность лучшего понимания стратегий атак. Этот подход повышает потенциал для создания более надежной системы безопасности для пользователей

Annotation:

Phishing attacks targeting both organizations and individuals are becoming an increasingly significant threat as technology advances. Current automatic detection methods often lack explainability and robustness in detecting new phishing attacks. In this work, we investigate the effectiveness of character-level deep learning models for phishing detection, which can provide both robustness and interpretability. We evaluate three neural architectures adapted to operate at the character level, namel...

ID: 2509.20589v1 cs.CR, cs.AI, cs.CL, cs.LG

arXiv PDF

Показано 21 - 30 из 50 записей