Attacking LLMs and AI Agents: Advertisement Embedding Attacks Against Large Language Models

2508.17674v1 cs.CR, cs.AI, cs.LG 2025-08-27
Авторы:

Qiming Guo, Jinwen Tang, Xingran Huang

Резюме на русском

## Контекст Искусственные нейронные сети (LLM) и искусственные интеллект-агенты (AI agents) становятся важными инструментами в различных областях, включая поиск информации, генерацию текста и принятие решений. Однако эти технологии остаются тематическим концептуально научной и технологической статьи по теме "Attacking LLMs and AI Agents: Advertisement Embedding Attacks Against Large Language Models" в силу их расширения. Одной из ключевых проблем является повышение риска мошенничества, публикации злонамеренной информации и скрытых объявлений. Эта проблема представляет собой значительный угрозу для безопасности и этики использования технологий AI. Мотивация для данного исследования заключается в определении новых типов угроз и разработке методов защиты, чтобы обеспечить безопасное и эффективное использование AI-систем. ## Метод Разработанная методология включает в себя следующие этапы: 1. **Анализ рисков и возможностей уязвимости**: Авторы определили, что уязвимость моделей AI может быть использована с помощью специально созданных входных стимулов (prompts), которые подкорректируют выходные данные модели. 2. **Использование сторонних сервисов**: Атака может получать доступ к сервисам, которые распространяют модели AI, чтобы внедрить свои собственные данные. 3. **Форвардная модель**: Авторы использовали атаку, которая имитирует принятое поведение модели, но включает в себя скрытые сообщения. 4. **Атака связывательных слоев (Backdoor Models)**: Эта атака включает в себя форматирование под входной стимул, который вызывает злонамеренное поведение. ## Результаты Авторы провели эксперименты, где проверяли влияние скрытых сообщений на различные модели AI. Они использовали разные данные и настройки, чтобы протестировать эффективность новых методов. Результаты показали, что модели AI могут быть легко изменены, чтобы включить невидимые объявления, поддельные информации или даже злонамеренные сообщения. Это подтверждает, что модели AI могут быть использованы для распространения злонамеренной информации без видимых симптомов. ## Значимость Результаты имеют значительное значение для различных сфер, включая безопасность интернета, типологию сетевых угроз и проблему фальсификации информации. Этот новый подход может быть использован для распространения объявлений, ложных новостей, или даже злонамеренных сообщений в различных сферах, таких как политические кампании, маркетинг и другие. Эта угроза может привести к значительным потерям для компаний и пользователей, если она не будет предотвращена. ## Выводы Авторы раскрыли новый класс угроз для технологий

Abstract

We introduce Advertisement Embedding Attacks (AEA), a new class of LLM security threats that stealthily inject promotional or malicious content into model outputs and AI agents. AEA operate through two low-cost vectors: (1) hijacking third-party service-distribution platforms to prepend adversarial prompts, and (2) publishing back-doored open-source checkpoints fine-tuned with attacker data. Unlike conventional attacks that degrade accuracy, AEA subvert information integrity, causing models to return covert ads, propaganda, or hate speech while appearing normal. We detail the attack pipeline, map five stakeholder victim groups, and present an initial prompt-based self-inspection defense that mitigates these injections without additional model retraining. Our findings reveal an urgent, under-addressed gap in LLM security and call for coordinated detection, auditing, and policy responses from the AI-safety community.

Ссылки и действия