Tricking LLM-Based NPCs into Spilling Secrets

2508.19288v1 cs.CR, cs.AI 2025-08-29
Авторы:

Kyohei Shiomi, Zhuotao Lian, Toru Nakanishi, Teruaki Kitasuka

Резюме на русском

## Контекст Large Language Models (LLMs) становятся все более популярными в игровых проектах, где используются для динамического генерирования диалогов NPC (non-player characters). Однако эта интеграция не без проблем. Одним из вы sobstvenных рисков является возможность проникновения внешних воздействий в систему, которое может привести к раскрытию конфиденциальной информации, которая должна оставаться недоступной. Авторы статьи проводят эксперименты с целью изучить возможность с помощью технологии adversarial prompt injection (атаки с использованием внедрения адверсарных команд) произвести систему на раскрытие тайных сведений. Эти сведения могут включать в себя личные данные, сценарии или другие сведения, которые не должны быть доступны игрокам. Эта проблема становится актуальной в связи с ростом популярности искусственного интеллекта в геймдизайне и необходимостью обеспечить безопасность данных в игровых средах. ## Метод В ходе исследования использовались следующие методы: 1. **Создание тестовых сценариев.** Авторы разрабатывали сценарии, в которых NPC должен был выдавать конкретные ответы, основанные на заранее продуманных скриптах. 2. **Использование технологии adversarial prompt injection.** Атака проводилась путем внедрения специально сформированных вопросов или запросов, которые могут конфликтовать с оригинальным скриптом NPC. 3. **Оценка результатов.** Авторы измеряли, насколько эффективна атака в соответствии с вероятностью раскрытия секретных сведений. 4. **Анализ безопасности.** Оценивались системные меры защиты и возможность исправления уязвимостей. Экспериментальная среда строилась на основе доступных для исследования LLM-based NPC и использовалась для подтверждения злоупотребления внедрением адверсарных запросов. ## Результаты В ходе экспериментов была проверена эффективность атаки на несколько LLM-based NPC с использованием разных способах внедрения адверсарных запросов. Оказалось, что в некоторых случаях NPC мог выдавать конфиденциальные данные, которые должны были оставаться недоступными игрокам. Например, при внедрении конкретных вопросов NPC мог "подчиняться" и предоставлять доступ к тайной информации. Эти результаты были подтверждены с помощью подробного анализа работы системы, включая моделирование разных уровней системной безопасности. ## Значимость Результаты исследования имеют значительное значение для обеспечения безопасности в игровых проектах, которые используют LLM-based NPC. Например, это можно применить в следующих областях: - **Обеспечение конфиденциальности данных игроков.** Изучение рисков внедрения адверсарных запросов поз

Abstract

Large Language Models (LLMs) are increasingly used to generate dynamic dialogue for game NPCs. However, their integration raises new security concerns. In this study, we examine whether adversarial prompt injection can cause LLM-based NPCs to reveal hidden background secrets that are meant to remain undisclosed.

Ссылки и действия