## Контекст
Large Language Models (LLMs) стали ключевым инструментом в различных областях, включая обработку естественного языка, поисковые системы и системы рекомендаций. Они обладают высокой точностью и гибкостью при выполнении задач, таких как суммирование текста, ответы на вопросы и генерация текста. Однако, благодаря их широкому распространению, LLMs становятся целью все более изощренных атак. Одной из наиболее актуальных проблем является возможность внедрения вредоносных инструкций в вводимые пользователем данные. Эти инструкции могут повлиять на поведение модели, приводя к изменению вывода без видимых признаков нарушения. Причиной этого является недостаток в изоляции ввода или недостаточная обработка входных данных. Эта проблема приобретает особое значение, так как LLMs часто используются в приложениях, где пользователи могут отправлять документы или вводить текст непосредственно в модель, например, в системах анализа рисков или системах обработки клиентских запросов. Целью данного исследования является изучение этого нового класса атак, а также поиск эффективных методов их противодействия.
## Метод
Для изучения этой проблемы была разработана методология, основанная на создании инъекционных тестов, включающих вредоносные инструкции, во входные данные пользователей. Исследование было проведено на нескольких популярных LLMs, в том числе GPT-3, CoPilot и других. Методы включали разбор структуры входных данных, анализ внутренних механизмов моделей, а также эмпирический анализ результатов. Технические решения включали анализ контекста ввода, использование моделей с разделенными входными данными и изоляции ввода, а также разработку инструментов для обнаружения и предотвращения таких атак. Архитектура исследования включала модели, которые были оценены на возможности подделки и уязвимости к таким атакам.
## Результаты
Эксперименты показали, что такие атаки могут быть эффективно применены в различных LLMs, включая GPT-3 и другие модели. Например, в одном из сценариев, когда пользователь отправил документ с вредоносными инструкциями, модель GPT-3 генерировала выводы, которые не соответствовали оригинальному вводу пользователя. В другом сценарии, когда пользователь вводил текст с вредоносными инструкциями, модель изменила свои рекомендации, чтобы соответствовать приведенным вредоносным инструкциям. Результаты показывают, что такие атаки могут привести к изменению результатов, включая предложение ложных фактов или выводы, которые не соответствуют истине. Такие результаты были получены на различных типах ввода, в том числе документах, текстах и данных, представленных в разных формата