📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 Securing Large Language Models (LLMs) from Prompt Injection Attacks

2025-12-03

Авторы:

Omar Farooq Khan Suri, John McCrae

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Large Language Models (LLMs) are increasingly being deployed in real-world applications, but their flexibility exposes them to prompt injection attacks. These attacks leverage the model's instruction-following ability to make it perform malicious tasks. Recent work has proposed JATMO, a task-specific fine-tuning approach that trains non-instruction-tuned base models to perform a single function, thereby reducing susceptibility to adversarial instructions. In this study, we evaluate the robustnes...

ID: 2512.01326v1 cs.CR, cs.CL, cs.LG

arXiv PDF

📄 Steganographic Backdoor Attacks in NLP: Ultra-Low Poisoning and Defense Evasion

2025-11-19

Авторы:

Eric Xue, Ruiyi Zhang, Zijun Zhang, Pengtao Xie

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Transformer models are foundational to natural language processing (NLP) applications, yet remain vulnerable to backdoor attacks introduced through poisoned data, which implant hidden behaviors during training. To strengthen the ability to prevent such compromises, recent research has focused on designing increasingly stealthy attacks to stress-test existing defenses, pairing backdoor behaviors with stylized artifact or token-level perturbation triggers. However, this trend diverts attention fro...

ID: 2511.14301v1 cs.CR, cs.CL, cs.LG

arXiv PDF

📄 PVMark: Enabling Public Verifiability for LLM Watermarking Schemes

2025-11-01

Авторы:

Haohua Duan, Liyao Xiang, Xin Zhang

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Watermarking schemes for large language models (LLMs) have been proposed to identify the source of the generated text, mitigating the potential threats emerged from model theft. However, current watermarking solutions hardly resolve the trust issue: the non-public watermark detection cannot prove itself faithfully conducting the detection. We observe that it is attributed to the secret key mostly used in the watermark detection -- it cannot be public, or the adversary may launch removal attacks ...

ID: 2510.26274v1 cs.CR, cs.CL, cs.LG

arXiv PDF

📄 SBASH: a Framework for Designing and Evaluating RAG vs. Prompt-Tuned LLM Honeypots

2025-10-28

Авторы:

Adetayo Adebimpe, Helmut Neukirchen, Thomas Welsh

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Honeypots are decoy systems used for gathering valuable threat intelligence or diverting attackers away from production systems. Maximising attacker engagement is essential to their utility. However research has highlighted that context-awareness, such as the ability to respond to new attack types, systems and attacker agents, is necessary to increase engagement. Large Language Models (LLMs) have been shown as one approach to increase context awareness but suffer from several challenges includin...

ID: 2510.21459v1 cs.CR, cs.CL, cs.LG, K.6.5; D.4.6; I.2.7

arXiv PDF

📄 The Hidden Cost of Modeling P(X): Vulnerability to Membership Inference Attacks in Generative Text Classifiers

2025-10-22

Авторы:

Owais Makroo, Siva Rajesh Kasa, Sumegh Roychowdhury, Karan Gupta, Nikhil Pattisapu, Santhosh Kasa, Sumit Negi

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Membership Inference Attacks (MIAs) pose a critical privacy threat by enabling adversaries to determine whether a specific sample was included in a model's training dataset. Despite extensive research on MIAs, systematic comparisons between generative and discriminative classifiers remain limited. This work addresses this gap by first providing theoretical motivation for why generative classifiers exhibit heightened susceptibility to MIAs, then validating these insights through comprehensive emp...

ID: 2510.16122v1 cs.CR, cs.CL, cs.LG, stat.ML

arXiv PDF

📄 Bits Leaked per Query: Information-Theoretic Bounds on Adversarial Attacks against LLMs

2025-10-22

Авторы:

Masahiro Kaneko, Timothy Baldwin

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Adversarial attacks by malicious users that threaten the safety of large language models (LLMs) can be viewed as attempts to infer a target property $T$ that is unknown when an instruction is issued, and becomes knowable only after the model's reply is observed. Examples of target properties $T$ include the binary flag that triggers an LLM's harmful response or rejection, and the degree to which information deleted by unlearning can be restored, both elicited via adversarial instructions. The LL...

ID: 2510.17000v1 cs.CR, cs.CL, cs.LG

arXiv PDF

📄 Differentially Private Synthetic Text Generation for Retrieval-Augmented Generation (RAG)

2025-10-10

Авторы:

Junki Mori, Kazuya Kakizaki, Taiki Miyagawa, Jun Sakuma

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Retrieval-Augmented Generation (RAG) enhances large language models (LLMs) by grounding them in external knowledge. However, its application in sensitive domains is limited by privacy risks. Existing private RAG methods typically rely on query-time differential privacy (DP), which requires repeated noise injection and leads to accumulated privacy loss. To address this issue, we propose DP-SynRAG, a framework that uses LLMs to generate differentially private synthetic RAG databases. Unlike prior ...

ID: 2510.06719v1 cs.CR, cs.CL, cs.LG

arXiv PDF

📄 SBFA: Single Sneaky Bit Flip Attack to Break Large Language Models

2025-09-30

Авторы:

Jingkai Guo, Chaitali Chakrabarti, Deliang Fan

#### Контекст Large Language Models (LLMs) становятся все более популярными благодаря своим возможностям в области текстового понимания и генерации. Однако их со временем становится все чаще целью атак на безопасность. Одной из таких угроз является Bit-Flip Attack (BFA), способ атаки, в котором действующий бит в памяти модели меняется на ноль. Ранее проводились исследования, показавшие, что даже небольшое количество таких битовых ошибок может стать причиной серьезного ухудшения качества работы моделей, достигая уровня случайного генерирования. В этом работе мы исследуем применение BFA к самым современным LLMs и продемонстрируем, что даже один бит может испортить работу модели. #### Метод Мы предлагаем Single Sneaky Bit Flip Attack (SBFA), новый атакующий алгоритм, который разработан для LLMs. Этот метод основывается на итерационной оценке и рейтинге параметров модели с помощью ImpactScore, метрики, которая учитывает градиентную чувствительность и ограничение переменных в разумных границах нормальных значений весов модели. Для повышения эффективности, мы применяем новую легковесную SKIP-методику, которая существенно сокращает сложность поиска. Это позволяет выполнить поиск в течение нескольких минут для современных моделей LLM. Мы применяем SBFA к моделям Qwen, LLaMA и Gemma, чтобы продемонстрировать свою эффективность. #### Результаты Мы проводили эксперименты с LLMs в разных условиях, включая BF16 и INT8 данные. Наши результаты показывают, что SBFA способен серьезно испортить работу моделей, ниже уровня случайного угадывания, с помощью только одного бита из миллиардов параметров. Это отмечается как на Qwen, так и на LLaMA и Gemma. Эти результаты показывают, что даже один небольшой битовый сбой может стать причиной катастрофической заваливания модели. #### Значимость Эти результаты являются важной новостью для развития безопасности моделей LLMs. Мы показываем, что уязвимость LLMs к таким атакам может быть использована для нанесения вреда, даже при минимальных вмешательствах. Это открывает новые пути для развития методов защиты LLMs и повышения их надежности в реальном мире. #### Выводы Наши результаты демонстрируют, что SBFA является эффективным инструментом для проведения BFA на современных LLMs. Мы показываем, что даже один бит может стать причиной серьезного недостатка модели. Будущие исследования будут направлены на развитие методов защиты от таких атак и расширение понимания уязвимостей LLMs.

Annotation:

Model integrity of Large language models (LLMs) has become a pressing security concern with their massive online deployment. Prior Bit-Flip Attacks (BFAs) -- a class of popular AI weight memory fault-injection techniques -- can severely compromise Deep Neural Networks (DNNs): as few as tens of bit flips can degrade accuracy toward random guessing. Recent studies extend BFAs to LLMs and reveal that, despite the intuition of better robustness from modularity and redundancy, only a handful of adver...

ID: 2509.21843v1 cs.CR, cs.CL, cs.LG

arXiv PDF

📄 Localizing Malicious Outputs from CodeLLM

2025-09-24

Авторы:

Mayukh Borana, Junyi Liang, Sai Sathiesh Rajan, Sudipta Chattopadhyay

#### Контекст Машинное обучение (ML), особенно в сфере генерирующих моделей языка, повсеместно применяется в различных областях. Однако такие модели часто становятся целью атак, в том числе вредоносных. Например, вредоносные акторы могут использовать такие модели для внедрения backdoor-триггеров, которые могут быть активированы за счет конкретных входных данных. Это может привести к выводу вредоносных результатов или действий. Таким образом, исследование методов, позволяющих обнаруживать и локализовать такие вредоносные выходы, является ключевым для обеспечения безопасности и надежности ML-систем. #### Метод Метод, представленный в статье, называется FreqRank и основывается на мутационном подходе. Он использует частоту появления подозрительных подстрок в выходных данных для определения вредоносных субстрок. Для этого FreqRank сравнивает частоту появления таких подстрок в выходных данных с теми, что есть в стандартных, не вредоносных выходных данных. В случае наличия высокой частоты подозрительных подстрок, они относятся к вредоносным. Для локализации backdoor-триггеров FreqRank использует полученные рейтинги, выявляя подстроки, которые влияют на вредоносный результат. Архитектура метода предполагает использование генерирующей модели языка и предоставления подстрок для тестирования их влияния. #### Результаты Чтобы проверить эффективность FreqRank, авторы ввели в работу несколько вредоносных моделей, созданных путем fine-tuning или настройки пользовательских инструкций. Эти модели были применены к трем разным задачам: кода, компиляции и описания кода. Они показали среднюю успешность атаки (Attack Success Rate, ASR) в районе 86.6%. Система FreqRank смогла выделить вредоносные выходы в 98% случаев, отображая их в пяти лучших предложениях. Было также продемонстрировано, что эффективность FreqRank растёт с увеличением количества мутаций и демонстрирует высокую точность даже при малом количестве входных данных, активирующих триггер. Это делает FreqRank 35-50% эффективнее других методов, используемых для локализации вредоносных выходов. #### Значимость FreqRank может быть применен в различных областях, где используются генерирующие модели языка, таких как кодирование, описание и генерация кода. Его особенностью является высокая точность в локализации вредоносных выходов, что позволяет быстро итоговые модели исправить. Это повышает уровень безопасности и надежности таких моделей в реальном мире. Более того, FreqRank может быть использован для контроля качества и оптимизации моделей, выявляя и устраняя возможные уязвимости. #### Выводы Результаты исследований показывают, что FreqRank является эффективным инст

Annotation:

We introduce FreqRank, a mutation-based defense to localize malicious components in LLM outputs and their corresponding backdoor triggers. FreqRank assumes that the malicious sub-string(s) consistently appear in outputs for triggered inputs and uses a frequency-based ranking system to identify them. Our ranking system then leverages this knowledge to localize the backdoor triggers present in the inputs. We create nine malicious models through fine-tuning or custom instructions for three downstre...

ID: 2509.17070v1 cs.CR, cs.CL, cs.LG

arXiv PDF

📄 From Attack Descriptions to Vulnerabilities: A Sentence Transformer-Based Approach

2025-09-05

Авторы:

Refat Othman, Diaeddin Rimawi, Bruno Rossi, Barbara Russo

#### Контекст В области информационной безопасности важность анализа и автоматизации процесса связывания атак с уязвимостями несомненна. Несмотря на то, что уязвимости часто остаются незамеченными даже после их эксплуатации, их активное использование во время атак может обеспечить важные сведения о слабых местах систем. Установление связи между атаками и уязвимостями не только позволяет значительно сократить время отклика на инциденты, но и повышает эффективность защиты систем. Однако решение этой задачи вручную, особенно в больших объемах данных, невозможно, что приводит к потребности в автоматизированных системах. Текущая исследоательская работа адресует эту проблему, оценивая различные модели трансформации предложений с целью выявления подходящих уязвимостей. #### Метод Для решения проблемы связывания атак с уязвимостями были использованы 14 современных моделей трансформации предложений, включая Sentence-BERT, MiniLM и MPNet. Модели были обучены классифицировать текстовые описания атак и связывать их с уязвимостями из Common Vulnerabilities and Exposures (CVE) репозитория. Основной фокус был уделен модели Multi-QA-MPNet-base-dot-v1 (MMPNet), которая была оценена на специально подготовленных данных, содержащих технические описания атак. Результаты экспериментов были измерены с помощью метрик F1-score, precision и recall. #### Результаты Результаты экспериментов показали, что MMPNet достигла F1-score в 89.0, precision в 84.0 и recall в 94.7 при классификации описаний атак. Было обнаружено, что 56% уязвимостей, выявленных моделью, соответствуют уязвимостям, перечисленным в CVE, в сочетании с их атаками. Дополнительно, 61% уязвимостей, выявленных моделью, соответствуют таким, как описаны в CVE. Это позволяет судить о высокой эффективности модели в выявлении связанных уязвимостей. Было также выявлено, что 275 уязвимостей, выданных моделью, не были документированы в репозитории MITRE, что может указывать на новые находки в области безопасности. #### Значимость Результаты этой работы могут быть применены в области автоматизации мониторинга безопасности, позволяя системам быстрее и эффективнее реагировать на инциденты. Также модель MMPNet может использоваться для поиска новых уязвимостей, которые еще не описаны в репозиториях. Важно отметить, что этот подход может существенно сократить время, в течение которого уязвимости остаются необнаруженными и эксплуатируемыми, что повышает уровень защиты систем. #### Выводы Результаты исследования демонтстрируют, что модель MMPNet является высокоэффективной для связывания атак с уязвимостями. В даль

Annotation:

In the domain of security, vulnerabilities frequently remain undetected even after their exploitation. In this work, vulnerabilities refer to publicly disclosed flaws documented in Common Vulnerabilities and Exposures (CVE) reports. Establishing a connection between attacks and vulnerabilities is essential for enabling timely incident response, as it provides defenders with immediate, actionable insights. However, manually mapping attacks to CVEs is infeasible, thereby motivating the need for au...

ID: 2509.02077v2 cs.CR, cs.CL, cs.LG, 68T50 Natural language processing, D.4.6; I.2.7

arXiv PDF

Показано 1 - 10 из 13 записей