Can AI Keep a Secret? Contextual Integrity Verification: A Provable Security Architecture for LLMs

2508.09288v1 cs.CR, cs.AI, cs.CL, 68T07, 94A60, D.4.6; K.6.5; E.3; I.2.6; I.2.7 2025-08-15
Авторы:

Aayush Gupta

Резюме на русском

## Контекст Large language models (LLMs) являются мощными инструментами для обработки естественного языка, но остаются чрезвычайно уязвимыми для атак, таких как проникновение с помощью принудительной инъекции промптов (prompt injection). Такие атаки позволяют злоумышленникам обходить безопасность моделей, используя контрольные простыни, вирусы текста и другие хитрости. Несмотря на развитие графических пользовательских интерфейсов и настройки гибридных моделей, эти угрозы не устранены. Одной из главных проблем является недостаток верификации контекста, что приводит к нежелательным побочным эффектам. Мотивирует это значительное злоупотребление подобными уязвимостями в различных сферах, от кибербезопасности до безопасности частных данных. Целью данного исследования является разработка проблемно-ориентированной безопасной архитектуры, которая может защищаться от таких атак, обеспечивая высокую прозрачность и неинтерферентность. ## Метод Методология применяемой в работе основывается на применении архитектуры **Contextual Integrity Verification (CIV)**, которая внедряет криптографически подписанные метки происхождения в каждый токен предоставляемых данных. В качестве дополнительного уровня защиты вводится **source-trust lattice** — механизм, который применяет источниковую трассировку токенов, используя твердые градиенты в маске пропускания токена (включая возможность включения FFN/residual gating). Это позволяет определять и отсекать токены, которые могут быть использованы для нежелательных атак. Архитектура CIV работает в режиме **inference-time**, чтобы не требовать переобучения моделей. Она является дополнительным модулем, который может быть применен к уже примененным моделям без необходимости тщательного тюнинга. ## Результаты Для оценки эффективности CIV были проведены эксперименты с использованием данных, основанных на текущих тезаурусах проникающих атак (Elite-Attack и SoK-246). Исследования показали, что CIV достигает 0% успеха атак в указанном технологическом моделе, сохраняя 93,1% токенного размера. Это означает, что модель может защищаться от хитрых принудительных атак, не теряя качества соответствия благонадёжному тексту. Кроме того, CIV не вызывает существенного замедления выполнения модели, за счет легковесного характера технологии. Мы также продемонстрировали примеры защиты с помощью LLama-3-8B и Mistral-7B, которые были защищены без нужды в тюнинге или переобучении. ## Значимость Разработанная архитектура CIV может быть применена в различных сферах, где необходима защита от нежелательных атак на модели ИИ. Области, в которых CIV может иметь преимущества, включают бе

Abstract

Large language models (LLMs) remain acutely vulnerable to prompt injection and related jailbreak attacks; heuristic guardrails (rules, filters, LLM judges) are routinely bypassed. We present Contextual Integrity Verification (CIV), an inference-time security architecture that attaches cryptographically signed provenance labels to every token and enforces a source-trust lattice inside the transformer via a pre-softmax hard attention mask (with optional FFN/residual gating). CIV provides deterministic, per-token non-interference guarantees on frozen models: lower-trust tokens cannot influence higher-trust representations. On benchmarks derived from recent taxonomies of prompt-injection vectors (Elite-Attack + SoK-246), CIV attains 0% attack success rate under the stated threat model while preserving 93.1% token-level similarity and showing no degradation in model perplexity on benign tasks; we note a latency overhead attributable to a non-optimized data path. Because CIV is a lightweight patch -- no fine-tuning required -- we demonstrate drop-in protection for Llama-3-8B and Mistral-7B. We release a reference implementation, an automated certification harness, and the Elite-Attack corpus to support reproducible research.

Ссылки и действия