Prompt Pirates Need a Map: Stealing Seeds helps Stealing Prompts
2509.09488v1
cs.CR, cs.AI
2025-09-13
Авторы:
Felix Mächtle, Ashwath Shetty, Jonas Sander, Nils Loose, Sören Pirk, Thomas Eisenbarth
Резюме на русском
## Контекст
Diffusion models являются перспективным направлением в искусственном интеллекте, особенно в области генерации изображений по текстовым подсказкам. Эти модели способны генерировать высококачественные изображения, тщательно соответствующие заданному текстовому описанию. Однако эти технологии также вызывают новые безопасностные заботы, в частности, вопрос о защите интеллектуальной собственности и конфиденциальности текстовых подсказок, используемых в генерации изображений.
В статье "Prompt Pirates Need a Map: Stealing Seeds helps Stealing Prompts" авторы раскрывают угрозу, связанную с мошенническим использованием текстовых подсказок. Они показывают, что злоумышленники могут воспользоваться ошибками в разработке таких моделей, чтобы извлечь текстовые подсказки, использованные для создания конкретных изображений. Это делает системы распознавания и генерации текстово-ориентированных изображений уязвимыми перед тем, как пользователи могут тщательно использовать их для защиты своих данных.
## Метод
Авторы приняли решение использовать методы тестирования системы для изучения уязвимости. Они обнаружили, что ошибка в обработке случайного шума при генерации изображений делает возможным взлом текстовых подсказок. Используя это, они разработали метод, основанный на генетических алгоритмах, который эффективно восстанавливает текстовые подсказки. Этот подход использовался для проверки уязвимости на реальных данных, полученных с популярных платформ.
## Результаты
Команда проводила большую эмпирическую исследовательскую работу, которая позволила установить, что более 95% текстовых подсказок могут быть восстановлены за 140 минут. Этот результат подтверждает эффективность использованного метода. Был создан инструмент SeedSnitch, который помогает извлекать текстовые подсказки. Основной метод PromptPirate, основанный на генетических алгоритмах, показал себя эффективнее, чем существующие методы, повысив точность восстановления на 8-11%.
## Значимость
Результаты исследования имеют большое значение для развития безопасных текстовых генерационных систем. Они могут применяться в разработке защитных методов для предотвращения несанкционированного доступа к текстовым подсказкам. Также, исследование показывает, что модели могут быть значительно улучшены с помощью новых безопасных технологий, которые могут снизить риск текстового взлома.
## Выводы
В целом, исследование демонстрирует необходимость в разработке новых методов защиты текстовых подсказок в текстовы
Abstract
Diffusion models have significantly advanced text-to-image generation,
enabling the creation of highly realistic images conditioned on textual prompts
and seeds. Given the considerable intellectual and economic value embedded in
such prompts, prompt theft poses a critical security and privacy concern. In
this paper, we investigate prompt-stealing attacks targeting diffusion models.
We reveal that numerical optimization-based prompt recovery methods are
fundamentally limited as they do not account for the initial random noise used
during image generation. We identify and exploit a noise-generation
vulnerability (CWE-339), prevalent in major image-generation frameworks,
originating from PyTorch's restriction of seed values to a range of $2^{32}$
when generating the initial random noise on CPUs. Through a large-scale
empirical analysis conducted on images shared via the popular platform CivitAI,
we demonstrate that approximately 95% of these images' seed values can be
effectively brute-forced in 140 minutes per seed using our seed-recovery tool,
SeedSnitch. Leveraging the recovered seed, we propose PromptPirate, a genetic
algorithm-based optimization method explicitly designed for prompt stealing.
PromptPirate surpasses state-of-the-art methods, i.e., PromptStealer, P2HP, and
CLIP-Interrogator, achieving an 8-11% improvement in LPIPS similarity.
Furthermore, we introduce straightforward and effective countermeasures that
render seed stealing, and thus optimization-based prompt stealing, ineffective.
We have disclosed our findings responsibly and initiated coordinated mitigation
efforts with the developers to address this critical vulnerability.
Ссылки и действия
Дополнительные ресурсы: