Early Approaches to Adversarial Fine-Tuning for Prompt Injection Defense: A 2022 Study of GPT-3 and Contemporary Models
2509.14271v1
cs.CR, cs.LG
2025-09-20
Авторы:
Gustavo Sandoval, Denys Fenchenko, Junyao Chen
Резюме на русском
## Контекст
В 2022 году проводились ранние исследования по защите технологий генерирующих текст от атак, основанных на подмене инструкций (prompt injection). Эти атаки заключаются в том, что злоумышленник вводит в систему нежелательные команды, подменяя или дополняя инструкции, которые она должна выполнить. Такие атаки являются критически важной проблемой для безопасности, особенно в контексте широкого распространения ИИ. Одним из главных исследований в этой области было исследование возможности защиты технологий, таких как GPT-3, от таких атак. Эти попытки воспроизвели и изучили типы атак, а также разработали новые методы защиты, в том числе Adversarial Fine-Tuning.
## Метод
Разработка защитных методов основывалась на систематическом тестировании и анализе результатов взаимодействия с генерирующими моделями текста. Методология включала в себя создание и подготовку специальных тестовых уровней, позволяющих проверить модели на устойчивость к строго определенным видам атак. Тестировались модели с разного размера, включая GPT-3 и GPT-2. Особый акцент был сделан на Adversarial Fine-Tuning — технике, которая включает в себя упражнение моделей на специальных данных для того, чтобы улучшить их устойчивость к подобным атакам.
## Результаты
Исследование показало, что некоторые модели, такие как GPT-3 Ada и Babbage, значительно устойчивее к prompt injection-атакам после Adversarial Fine-Tuning. Например, успешных атак было удалось выполнить с меньшей частотой, сравнительно с незащищенными моделями. Однако для более мощных моделей, таких как GPT-3 Davinci, эффективность защиты была ниже. Это можно объяснить тем, что более гибкие модели, с большим количеством параметров, намного более чувствительны к нежелательным внешним воздействиям. Несмотря на это, данный подход продемонстрировал существенный уровень защиты от атак в меньших моделях.
## Значимость
Результаты этого исследования имеют практическое значение для обеспечения безопасности технологий генерирующих текст. Защитные методы, разработанные в этом исследовании, установили новые стандарты для защиты от prompt injection-атак и стали основой для дальнейшего исследования. Эти техники были применены в последующих исследованиях, в том числе в инструкционных системах и подходах, основанных на построении системных конституций (constitutional AI). Эти исследования имеют широкое применение в области безопасности ИИ, обеспечивая системным защиту от нежелательных подмен выдаваемых ими инструкций.
## Выводы
Исследования 2022 года установили новые этапы в развитии защитных методов для генерирующих текстовых моделей.
Abstract
This paper documents early research conducted in 2022 on defending against
prompt injection attacks in large language models, providing historical context
for the evolution of this critical security domain. This research focuses on
two adversarial attacks against Large Language Models (LLMs): prompt injection
and goal hijacking. We examine how to construct these attacks, test them on
various LLMs, and compare their effectiveness. We propose and evaluate a novel
defense technique called Adversarial Fine-Tuning. Our results show that,
without this defense, the attacks succeeded 31\% of the time on GPT-3 series
models. When using our Adversarial Fine-Tuning approach, attack success rates
were reduced to near zero for smaller GPT-3 variants (Ada, Babbage, Curie),
though we note that subsequent research has revealed limitations of
fine-tuning-based defenses. We also find that more flexible models exhibit
greater vulnerability to these attacks. Consequently, large models such as
GPT-3 Davinci are more vulnerable than smaller models like GPT-2. While the
specific models tested are now superseded, the core methodology and empirical
findings contributed to the foundation of modern prompt injection defense
research, including instruction hierarchy systems and constitutional AI
approaches.
Ссылки и действия
Дополнительные ресурсы: