SecInfer: Preventing Prompt Injection via Inference-time Scaling
2509.24967v1
cs.CR, cs.AI
2025-10-01
Авторы:
Yupei Liu, Yanting Wang, Yuqi Jia, Jinyuan Jia, Neil Zhenqiang Gong
Резюме на русском
Опубликовано: 2024-11-19
## Контекст
Проблема системы безопасности в технологиях ИИ, особенно с Large Language Models (LLMs), остается острой. Одним из наиболее распространенных типов атак являются **prompt injection attacks**, при которых злоумышленник вводит в систему специально созданные команды, которые могут повлиять на поведение модели. Эти атаки подвергают LLMs риску кражи данных, раскрытия конфиденциальной информации и даже управления моделью.
Существующие подходы к защите от таких атак, такие как fine-tuning, показали недостаточную эффективность, особенно при сильно настроенных атаках. Поэтому, необходимо разрабатывать более устойчивые методы, которые могут защитить LLMs в рабочей среде.
## Метод
Разработанный подход **SecInfer** основан на технике **inference-time scaling**, которая увеличивает мощность вычислений во время интерпретации инпута. Он включает два основных этапа:
1. **System-prompt-guided sampling** – вводятся различные системные альтернативы для обработки запроса, чтобы сгенерировать несколько вариантов ответов. Это позволяет модели "открыть" больше возможных реакций на запрос.
2. **Target-task-guided aggregation** – среди генерируемых ответов выбирается тот, который наиболее подходит для достижения заданной цели пользователя. Этот этап стремится нормализовать результаты, контролируя целесообразность ответа.
## Результаты
Исследования проводились на наборе данных, включающем обучающие и тестовые выборки, с различными уровнями сложности присущих prompt injection attacks. Модель SecInfer была сравнена с другими методами защиты. Результаты показали, что SecInfer не только эффективно справляется с ранее известными атаками, но и может справиться с адаптивными атаками, которые настроены на обход большинства существующих систем.
## Значимость
SecInfer может быть применен в различных областях, где используются LLMs: системы рекомендаций, системы анализа текста, интеллектуальные помощники и даже системы управления. Он предлагает высокую степень защиты, более эффективность и универсальность по сравнению с другими существующими методами. Кроме того, SecInfer может улучшить уровень доверия пользователей к LLMs, обеспечив безопасность в работе с ними.
## Выводы
SecInfer является первым подходом, который эффективно использует **inference-time scaling** для защиты от prompt injection attacks. Он показал значительное улучшение по сравнению с другими методами и предлагает новый подход к защите LLMs. Будущие исследования будут сфокусированы на улучшении его скорости и эффективности, а также на расширении его применения в различных сценариях.
Abstract
Prompt injection attacks pose a pervasive threat to the security of Large
Language Models (LLMs). State-of-the-art prevention-based defenses typically
rely on fine-tuning an LLM to enhance its security, but they achieve limited
effectiveness against strong attacks. In this work, we propose \emph{SecInfer},
a novel defense against prompt injection attacks built on \emph{inference-time
scaling}, an emerging paradigm that boosts LLM capability by allocating more
compute resources for reasoning during inference. SecInfer consists of two key
steps: \emph{system-prompt-guided sampling}, which generates multiple responses
for a given input by exploring diverse reasoning paths through a varied set of
system prompts, and \emph{target-task-guided aggregation}, which selects the
response most likely to accomplish the intended task. Extensive experiments
show that, by leveraging additional compute at inference, SecInfer effectively
mitigates both existing and adaptive prompt injection attacks, outperforming
state-of-the-art defenses as well as existing inference-time scaling
approaches.
Ссылки и действия
Дополнительные ресурсы: