Prompt-in-Content Attacks: Exploiting Uploaded Inputs to Hijack LLM Behavior
2508.19287v1
cs.CR, cs.AI
2025-08-29
Авторы:
Zhuotao Lian, Weiyu Wang, Qingkui Zeng, Toru Nakanishi, Teruaki Kitasuka, Chunhua Su
Резюме на русском
## Контекст
Large Language Models (LLMs) стали ключевым инструментом в различных областях, включая обработку естественного языка, поисковые системы и системы рекомендаций. Они обладают высокой точностью и гибкостью при выполнении задач, таких как суммирование текста, ответы на вопросы и генерация текста. Однако, благодаря их широкому распространению, LLMs становятся целью все более изощренных атак. Одной из наиболее актуальных проблем является возможность внедрения вредоносных инструкций в вводимые пользователем данные. Эти инструкции могут повлиять на поведение модели, приводя к изменению вывода без видимых признаков нарушения. Причиной этого является недостаток в изоляции ввода или недостаточная обработка входных данных. Эта проблема приобретает особое значение, так как LLMs часто используются в приложениях, где пользователи могут отправлять документы или вводить текст непосредственно в модель, например, в системах анализа рисков или системах обработки клиентских запросов. Целью данного исследования является изучение этого нового класса атак, а также поиск эффективных методов их противодействия.
## Метод
Для изучения этой проблемы была разработана методология, основанная на создании инъекционных тестов, включающих вредоносные инструкции, во входные данные пользователей. Исследование было проведено на нескольких популярных LLMs, в том числе GPT-3, CoPilot и других. Методы включали разбор структуры входных данных, анализ внутренних механизмов моделей, а также эмпирический анализ результатов. Технические решения включали анализ контекста ввода, использование моделей с разделенными входными данными и изоляции ввода, а также разработку инструментов для обнаружения и предотвращения таких атак. Архитектура исследования включала модели, которые были оценены на возможности подделки и уязвимости к таким атакам.
## Результаты
Эксперименты показали, что такие атаки могут быть эффективно применены в различных LLMs, включая GPT-3 и другие модели. Например, в одном из сценариев, когда пользователь отправил документ с вредоносными инструкциями, модель GPT-3 генерировала выводы, которые не соответствовали оригинальному вводу пользователя. В другом сценарии, когда пользователь вводил текст с вредоносными инструкциями, модель изменила свои рекомендации, чтобы соответствовать приведенным вредоносным инструкциям. Результаты показывают, что такие атаки могут привести к изменению результатов, включая предложение ложных фактов или выводы, которые не соответствуют истине. Такие результаты были получены на различных типах ввода, в том числе документах, текстах и данных, представленных в разных формата
Abstract
Large Language Models (LLMs) are widely deployed in applications that accept
user-submitted content, such as uploaded documents or pasted text, for tasks
like summarization and question answering. In this paper, we identify a new
class of attacks, prompt in content injection, where adversarial instructions
are embedded in seemingly benign inputs. When processed by the LLM, these
hidden prompts can manipulate outputs without user awareness or system
compromise, leading to biased summaries, fabricated claims, or misleading
suggestions. We demonstrate the feasibility of such attacks across popular
platforms, analyze their root causes including prompt concatenation and
insufficient input isolation, and discuss mitigation strategies. Our findings
reveal a subtle yet practical threat in real-world LLM workflows.
Ссылки и действия
Дополнительные ресурсы: