Prompt-in-Content Attacks: Exploiting Uploaded Inputs to Hijack LLM Behavior

2508.19287v1 cs.CR, cs.AI 2025-08-29
Авторы:

Zhuotao Lian, Weiyu Wang, Qingkui Zeng, Toru Nakanishi, Teruaki Kitasuka, Chunhua Su

Резюме на русском

## Контекст Large Language Models (LLMs) стали ключевым инструментом в различных областях, включая обработку естественного языка, поисковые системы и системы рекомендаций. Они обладают высокой точностью и гибкостью при выполнении задач, таких как суммирование текста, ответы на вопросы и генерация текста. Однако, благодаря их широкому распространению, LLMs становятся целью все более изощренных атак. Одной из наиболее актуальных проблем является возможность внедрения вредоносных инструкций в вводимые пользователем данные. Эти инструкции могут повлиять на поведение модели, приводя к изменению вывода без видимых признаков нарушения. Причиной этого является недостаток в изоляции ввода или недостаточная обработка входных данных. Эта проблема приобретает особое значение, так как LLMs часто используются в приложениях, где пользователи могут отправлять документы или вводить текст непосредственно в модель, например, в системах анализа рисков или системах обработки клиентских запросов. Целью данного исследования является изучение этого нового класса атак, а также поиск эффективных методов их противодействия. ## Метод Для изучения этой проблемы была разработана методология, основанная на создании инъекционных тестов, включающих вредоносные инструкции, во входные данные пользователей. Исследование было проведено на нескольких популярных LLMs, в том числе GPT-3, CoPilot и других. Методы включали разбор структуры входных данных, анализ внутренних механизмов моделей, а также эмпирический анализ результатов. Технические решения включали анализ контекста ввода, использование моделей с разделенными входными данными и изоляции ввода, а также разработку инструментов для обнаружения и предотвращения таких атак. Архитектура исследования включала модели, которые были оценены на возможности подделки и уязвимости к таким атакам. ## Результаты Эксперименты показали, что такие атаки могут быть эффективно применены в различных LLMs, включая GPT-3 и другие модели. Например, в одном из сценариев, когда пользователь отправил документ с вредоносными инструкциями, модель GPT-3 генерировала выводы, которые не соответствовали оригинальному вводу пользователя. В другом сценарии, когда пользователь вводил текст с вредоносными инструкциями, модель изменила свои рекомендации, чтобы соответствовать приведенным вредоносным инструкциям. Результаты показывают, что такие атаки могут привести к изменению результатов, включая предложение ложных фактов или выводы, которые не соответствуют истине. Такие результаты были получены на различных типах ввода, в том числе документах, текстах и данных, представленных в разных формата

Abstract

Large Language Models (LLMs) are widely deployed in applications that accept user-submitted content, such as uploaded documents or pasted text, for tasks like summarization and question answering. In this paper, we identify a new class of attacks, prompt in content injection, where adversarial instructions are embedded in seemingly benign inputs. When processed by the LLM, these hidden prompts can manipulate outputs without user awareness or system compromise, leading to biased summaries, fabricated claims, or misleading suggestions. We demonstrate the feasibility of such attacks across popular platforms, analyze their root causes including prompt concatenation and insufficient input isolation, and discuss mitigation strategies. Our findings reveal a subtle yet practical threat in real-world LLM workflows.

Ссылки и действия