Early Approaches to Adversarial Fine-Tuning for Prompt Injection Defense: A 2022 Study of GPT-3 and Contemporary Models

2509.14271v1 cs.CR, cs.LG 2025-09-20
Авторы:

Gustavo Sandoval, Denys Fenchenko, Junyao Chen

Резюме на русском

## Контекст В 2022 году проводились ранние исследования по защите технологий генерирующих текст от атак, основанных на подмене инструкций (prompt injection). Эти атаки заключаются в том, что злоумышленник вводит в систему нежелательные команды, подменяя или дополняя инструкции, которые она должна выполнить. Такие атаки являются критически важной проблемой для безопасности, особенно в контексте широкого распространения ИИ. Одним из главных исследований в этой области было исследование возможности защиты технологий, таких как GPT-3, от таких атак. Эти попытки воспроизвели и изучили типы атак, а также разработали новые методы защиты, в том числе Adversarial Fine-Tuning. ## Метод Разработка защитных методов основывалась на систематическом тестировании и анализе результатов взаимодействия с генерирующими моделями текста. Методология включала в себя создание и подготовку специальных тестовых уровней, позволяющих проверить модели на устойчивость к строго определенным видам атак. Тестировались модели с разного размера, включая GPT-3 и GPT-2. Особый акцент был сделан на Adversarial Fine-Tuning — технике, которая включает в себя упражнение моделей на специальных данных для того, чтобы улучшить их устойчивость к подобным атакам. ## Результаты Исследование показало, что некоторые модели, такие как GPT-3 Ada и Babbage, значительно устойчивее к prompt injection-атакам после Adversarial Fine-Tuning. Например, успешных атак было удалось выполнить с меньшей частотой, сравнительно с незащищенными моделями. Однако для более мощных моделей, таких как GPT-3 Davinci, эффективность защиты была ниже. Это можно объяснить тем, что более гибкие модели, с большим количеством параметров, намного более чувствительны к нежелательным внешним воздействиям. Несмотря на это, данный подход продемонстрировал существенный уровень защиты от атак в меньших моделях. ## Значимость Результаты этого исследования имеют практическое значение для обеспечения безопасности технологий генерирующих текст. Защитные методы, разработанные в этом исследовании, установили новые стандарты для защиты от prompt injection-атак и стали основой для дальнейшего исследования. Эти техники были применены в последующих исследованиях, в том числе в инструкционных системах и подходах, основанных на построении системных конституций (constitutional AI). Эти исследования имеют широкое применение в области безопасности ИИ, обеспечивая системным защиту от нежелательных подмен выдаваемых ими инструкций. ## Выводы Исследования 2022 года установили новые этапы в развитии защитных методов для генерирующих текстовых моделей.

Abstract

This paper documents early research conducted in 2022 on defending against prompt injection attacks in large language models, providing historical context for the evolution of this critical security domain. This research focuses on two adversarial attacks against Large Language Models (LLMs): prompt injection and goal hijacking. We examine how to construct these attacks, test them on various LLMs, and compare their effectiveness. We propose and evaluate a novel defense technique called Adversarial Fine-Tuning. Our results show that, without this defense, the attacks succeeded 31\% of the time on GPT-3 series models. When using our Adversarial Fine-Tuning approach, attack success rates were reduced to near zero for smaller GPT-3 variants (Ada, Babbage, Curie), though we note that subsequent research has revealed limitations of fine-tuning-based defenses. We also find that more flexible models exhibit greater vulnerability to these attacks. Consequently, large models such as GPT-3 Davinci are more vulnerable than smaller models like GPT-2. While the specific models tested are now superseded, the core methodology and empirical findings contributed to the foundation of modern prompt injection defense research, including instruction hierarchy systems and constitutional AI approaches.

Ссылки и действия