Can AI Keep a Secret? Contextual Integrity Verification: A Provable Security Architecture for LLMs
2508.09288v1
cs.CR, cs.AI, cs.CL, 68T07, 94A60, D.4.6; K.6.5; E.3; I.2.6; I.2.7
2025-08-15
Авторы:
Aayush Gupta
Резюме на русском
## Контекст
Large language models (LLMs) являются мощными инструментами для обработки естественного языка, но остаются чрезвычайно уязвимыми для атак, таких как проникновение с помощью принудительной инъекции промптов (prompt injection). Такие атаки позволяют злоумышленникам обходить безопасность моделей, используя контрольные простыни, вирусы текста и другие хитрости. Несмотря на развитие графических пользовательских интерфейсов и настройки гибридных моделей, эти угрозы не устранены. Одной из главных проблем является недостаток верификации контекста, что приводит к нежелательным побочным эффектам. Мотивирует это значительное злоупотребление подобными уязвимостями в различных сферах, от кибербезопасности до безопасности частных данных. Целью данного исследования является разработка проблемно-ориентированной безопасной архитектуры, которая может защищаться от таких атак, обеспечивая высокую прозрачность и неинтерферентность.
## Метод
Методология применяемой в работе основывается на применении архитектуры **Contextual Integrity Verification (CIV)**, которая внедряет криптографически подписанные метки происхождения в каждый токен предоставляемых данных. В качестве дополнительного уровня защиты вводится **source-trust lattice** — механизм, который применяет источниковую трассировку токенов, используя твердые градиенты в маске пропускания токена (включая возможность включения FFN/residual gating). Это позволяет определять и отсекать токены, которые могут быть использованы для нежелательных атак. Архитектура CIV работает в режиме **inference-time**, чтобы не требовать переобучения моделей. Она является дополнительным модулем, который может быть применен к уже примененным моделям без необходимости тщательного тюнинга.
## Результаты
Для оценки эффективности CIV были проведены эксперименты с использованием данных, основанных на текущих тезаурусах проникающих атак (Elite-Attack и SoK-246). Исследования показали, что CIV достигает 0% успеха атак в указанном технологическом моделе, сохраняя 93,1% токенного размера. Это означает, что модель может защищаться от хитрых принудительных атак, не теряя качества соответствия благонадёжному тексту. Кроме того, CIV не вызывает существенного замедления выполнения модели, за счет легковесного характера технологии. Мы также продемонстрировали примеры защиты с помощью LLama-3-8B и Mistral-7B, которые были защищены без нужды в тюнинге или переобучении.
## Значимость
Разработанная архитектура CIV может быть применена в различных сферах, где необходима защита от нежелательных атак на модели ИИ. Области, в которых CIV может иметь преимущества, включают бе
Abstract
Large language models (LLMs) remain acutely vulnerable to prompt injection
and related jailbreak attacks; heuristic guardrails (rules, filters, LLM
judges) are routinely bypassed. We present Contextual Integrity Verification
(CIV), an inference-time security architecture that attaches cryptographically
signed provenance labels to every token and enforces a source-trust lattice
inside the transformer via a pre-softmax hard attention mask (with optional
FFN/residual gating). CIV provides deterministic, per-token non-interference
guarantees on frozen models: lower-trust tokens cannot influence higher-trust
representations. On benchmarks derived from recent taxonomies of
prompt-injection vectors (Elite-Attack + SoK-246), CIV attains 0% attack
success rate under the stated threat model while preserving 93.1% token-level
similarity and showing no degradation in model perplexity on benign tasks; we
note a latency overhead attributable to a non-optimized data path. Because CIV
is a lightweight patch -- no fine-tuning required -- we demonstrate drop-in
protection for Llama-3-8B and Mistral-7B. We release a reference
implementation, an automated certification harness, and the Elite-Attack corpus
to support reproducible research.