You Can't Steal Nothing: Mitigating Prompt Leakages in LLMs via System Vectors
2509.21884v1
cs.CR, cs.AI, cs.CL
2025-09-30
Авторы:
Bochuan Cao, Changjiang Li, Yuanpu Cao, Yameng Ge, Ting Wang, Jinghui Chen
Резюме на русском
Название: You Can't Steal Nothing: Mitigating Prompt Leakages in LLMs via System Vectors
## Контекст
Large language models (LLMs) признаны стандартом в области искусственного интеллекта для выполнения различных задач. Однако, по мере расширения их применения, появляются новые проблемы, в том числе риск вытекания системных запросов (prompt leakage). Такой вид утечек нарушает безопасность и может привести к утечке конфиденциальных данных. Защита от таких проблем становится все более важной для развития моделей LLM на безопасных и эффективных технологиях.
## Метод
Авторы предлагают SysVec — метод, который представляет системные запросы не как текст, а в виде внутренних векторных представлений. Это позволяет скрыть запросы от внешних атак и сохранить все функциональные возможности модели. Во время обучения и использования модели вводится специальная модификация системного запроса, которая не только защищает данные, но также улучшает общее поведение модели.
## Результаты
Проведенные эксперименты показывают, что SysVec эффективно минимизирует риск утечки системных запросов. Модель демонстрирует улучшенную устойчивость к различным атакам, в том числе тем, которые ранее были успешны против других LLM-моделей. Эксперименты проводились на моделях GPT-4o и Claude 3.5 Sonnet, и результаты показали, что SysVec не только защищает данные, но и повышает качество выполнения задач, в том числе в сценариях с длинными контекстами.
## Значимость
Систематические риски утечки системных запросов нарушают безопасность и могут привести к нежелательным последствиям. SysVec предлагает новый подход к решению этой проблемы, обеспечивая безопасность и сохранение функциональности моделей. Это может быть применено в различных областях, где требуется безопасный интеллектуальный анализ данных, таких как медицина, финансы и юридические системы. Будущие исследования будут направлены на усовершенствование метода и его использование в современных системах LLM.
## Выводы
Основным достижением является представление системных запросов в виде внутренних векторных представлений, что позволяет защитить данные и повысить эффективность моделей. Будущие исследования будут уделять внимание улучшению этих технологий для их применения в безопасных системах с большим объемом данных.
Abstract
Large language models (LLMs) have been widely adopted across various
applications, leveraging customized system prompts for diverse tasks. Facing
potential system prompt leakage risks, model developers have implemented
strategies to prevent leakage, primarily by disabling LLMs from repeating their
context when encountering known attack patterns. However, it remains vulnerable
to new and unforeseen prompt-leaking techniques. In this paper, we first
introduce a simple yet effective prompt leaking attack to reveal such risks.
Our attack is capable of extracting system prompts from various LLM-based
application, even from SOTA LLM models such as GPT-4o or Claude 3.5 Sonnet. Our
findings further inspire us to search for a fundamental solution to the
problems by having no system prompt in the context. To this end, we propose
SysVec, a novel method that encodes system prompts as internal representation
vectors rather than raw text. By doing so, SysVec minimizes the risk of
unauthorized disclosure while preserving the LLM's core language capabilities.
Remarkably, this approach not only enhances security but also improves the
model's general instruction-following abilities. Experimental results
demonstrate that SysVec effectively mitigates prompt leakage attacks, preserves
the LLM's functional integrity, and helps alleviate the forgetting issue in
long-context scenarios.
Ссылки и действия
Дополнительные ресурсы: