You Can't Steal Nothing: Mitigating Prompt Leakages in LLMs via System Vectors

2509.21884v1 cs.CR, cs.AI, cs.CL 2025-09-30
Авторы:

Bochuan Cao, Changjiang Li, Yuanpu Cao, Yameng Ge, Ting Wang, Jinghui Chen

Резюме на русском

Название: You Can't Steal Nothing: Mitigating Prompt Leakages in LLMs via System Vectors ## Контекст Large language models (LLMs) признаны стандартом в области искусственного интеллекта для выполнения различных задач. Однако, по мере расширения их применения, появляются новые проблемы, в том числе риск вытекания системных запросов (prompt leakage). Такой вид утечек нарушает безопасность и может привести к утечке конфиденциальных данных. Защита от таких проблем становится все более важной для развития моделей LLM на безопасных и эффективных технологиях. ## Метод Авторы предлагают SysVec — метод, который представляет системные запросы не как текст, а в виде внутренних векторных представлений. Это позволяет скрыть запросы от внешних атак и сохранить все функциональные возможности модели. Во время обучения и использования модели вводится специальная модификация системного запроса, которая не только защищает данные, но также улучшает общее поведение модели. ## Результаты Проведенные эксперименты показывают, что SysVec эффективно минимизирует риск утечки системных запросов. Модель демонстрирует улучшенную устойчивость к различным атакам, в том числе тем, которые ранее были успешны против других LLM-моделей. Эксперименты проводились на моделях GPT-4o и Claude 3.5 Sonnet, и результаты показали, что SysVec не только защищает данные, но и повышает качество выполнения задач, в том числе в сценариях с длинными контекстами. ## Значимость Систематические риски утечки системных запросов нарушают безопасность и могут привести к нежелательным последствиям. SysVec предлагает новый подход к решению этой проблемы, обеспечивая безопасность и сохранение функциональности моделей. Это может быть применено в различных областях, где требуется безопасный интеллектуальный анализ данных, таких как медицина, финансы и юридические системы. Будущие исследования будут направлены на усовершенствование метода и его использование в современных системах LLM. ## Выводы Основным достижением является представление системных запросов в виде внутренних векторных представлений, что позволяет защитить данные и повысить эффективность моделей. Будущие исследования будут уделять внимание улучшению этих технологий для их применения в безопасных системах с большим объемом данных.

Abstract

Large language models (LLMs) have been widely adopted across various applications, leveraging customized system prompts for diverse tasks. Facing potential system prompt leakage risks, model developers have implemented strategies to prevent leakage, primarily by disabling LLMs from repeating their context when encountering known attack patterns. However, it remains vulnerable to new and unforeseen prompt-leaking techniques. In this paper, we first introduce a simple yet effective prompt leaking attack to reveal such risks. Our attack is capable of extracting system prompts from various LLM-based application, even from SOTA LLM models such as GPT-4o or Claude 3.5 Sonnet. Our findings further inspire us to search for a fundamental solution to the problems by having no system prompt in the context. To this end, we propose SysVec, a novel method that encodes system prompts as internal representation vectors rather than raw text. By doing so, SysVec minimizes the risk of unauthorized disclosure while preserving the LLM's core language capabilities. Remarkably, this approach not only enhances security but also improves the model's general instruction-following abilities. Experimental results demonstrate that SysVec effectively mitigates prompt leakage attacks, preserves the LLM's functional integrity, and helps alleviate the forgetting issue in long-context scenarios.

Ссылки и действия