SecInfer: Preventing Prompt Injection via Inference-time Scaling

2509.24967v1 cs.CR, cs.AI 2025-10-01
Авторы:

Yupei Liu, Yanting Wang, Yuqi Jia, Jinyuan Jia, Neil Zhenqiang Gong

Резюме на русском

Опубликовано: 2024-11-19 ## Контекст Проблема системы безопасности в технологиях ИИ, особенно с Large Language Models (LLMs), остается острой. Одним из наиболее распространенных типов атак являются **prompt injection attacks**, при которых злоумышленник вводит в систему специально созданные команды, которые могут повлиять на поведение модели. Эти атаки подвергают LLMs риску кражи данных, раскрытия конфиденциальной информации и даже управления моделью. Существующие подходы к защите от таких атак, такие как fine-tuning, показали недостаточную эффективность, особенно при сильно настроенных атаках. Поэтому, необходимо разрабатывать более устойчивые методы, которые могут защитить LLMs в рабочей среде. ## Метод Разработанный подход **SecInfer** основан на технике **inference-time scaling**, которая увеличивает мощность вычислений во время интерпретации инпута. Он включает два основных этапа: 1. **System-prompt-guided sampling** – вводятся различные системные альтернативы для обработки запроса, чтобы сгенерировать несколько вариантов ответов. Это позволяет модели "открыть" больше возможных реакций на запрос. 2. **Target-task-guided aggregation** – среди генерируемых ответов выбирается тот, который наиболее подходит для достижения заданной цели пользователя. Этот этап стремится нормализовать результаты, контролируя целесообразность ответа. ## Результаты Исследования проводились на наборе данных, включающем обучающие и тестовые выборки, с различными уровнями сложности присущих prompt injection attacks. Модель SecInfer была сравнена с другими методами защиты. Результаты показали, что SecInfer не только эффективно справляется с ранее известными атаками, но и может справиться с адаптивными атаками, которые настроены на обход большинства существующих систем. ## Значимость SecInfer может быть применен в различных областях, где используются LLMs: системы рекомендаций, системы анализа текста, интеллектуальные помощники и даже системы управления. Он предлагает высокую степень защиты, более эффективность и универсальность по сравнению с другими существующими методами. Кроме того, SecInfer может улучшить уровень доверия пользователей к LLMs, обеспечив безопасность в работе с ними. ## Выводы SecInfer является первым подходом, который эффективно использует **inference-time scaling** для защиты от prompt injection attacks. Он показал значительное улучшение по сравнению с другими методами и предлагает новый подход к защите LLMs. Будущие исследования будут сфокусированы на улучшении его скорости и эффективности, а также на расширении его применения в различных сценариях.

Abstract

Prompt injection attacks pose a pervasive threat to the security of Large Language Models (LLMs). State-of-the-art prevention-based defenses typically rely on fine-tuning an LLM to enhance its security, but they achieve limited effectiveness against strong attacks. In this work, we propose \emph{SecInfer}, a novel defense against prompt injection attacks built on \emph{inference-time scaling}, an emerging paradigm that boosts LLM capability by allocating more compute resources for reasoning during inference. SecInfer consists of two key steps: \emph{system-prompt-guided sampling}, which generates multiple responses for a given input by exploring diverse reasoning paths through a varied set of system prompts, and \emph{target-task-guided aggregation}, which selects the response most likely to accomplish the intended task. Extensive experiments show that, by leveraging additional compute at inference, SecInfer effectively mitigates both existing and adaptive prompt injection attacks, outperforming state-of-the-art defenses as well as existing inference-time scaling approaches.

Ссылки и действия