Prompt Pirates Need a Map: Stealing Seeds helps Stealing Prompts

2509.09488v1 cs.CR, cs.AI 2025-09-13

Авторы:

Felix Mächtle, Ashwath Shetty, Jonas Sander, Nils Loose, Sören Pirk, Thomas Eisenbarth

Резюме на русском

## Контекст Diffusion models являются перспективным направлением в искусственном интеллекте, особенно в области генерации изображений по текстовым подсказкам. Эти модели способны генерировать высококачественные изображения, тщательно соответствующие заданному текстовому описанию. Однако эти технологии также вызывают новые безопасностные заботы, в частности, вопрос о защите интеллектуальной собственности и конфиденциальности текстовых подсказок, используемых в генерации изображений. В статье "Prompt Pirates Need a Map: Stealing Seeds helps Stealing Prompts" авторы раскрывают угрозу, связанную с мошенническим использованием текстовых подсказок. Они показывают, что злоумышленники могут воспользоваться ошибками в разработке таких моделей, чтобы извлечь текстовые подсказки, использованные для создания конкретных изображений. Это делает системы распознавания и генерации текстово-ориентированных изображений уязвимыми перед тем, как пользователи могут тщательно использовать их для защиты своих данных. ## Метод Авторы приняли решение использовать методы тестирования системы для изучения уязвимости. Они обнаружили, что ошибка в обработке случайного шума при генерации изображений делает возможным взлом текстовых подсказок. Используя это, они разработали метод, основанный на генетических алгоритмах, который эффективно восстанавливает текстовые подсказки. Этот подход использовался для проверки уязвимости на реальных данных, полученных с популярных платформ. ## Результаты Команда проводила большую эмпирическую исследовательскую работу, которая позволила установить, что более 95% текстовых подсказок могут быть восстановлены за 140 минут. Этот результат подтверждает эффективность использованного метода. Был создан инструмент SeedSnitch, который помогает извлекать текстовые подсказки. Основной метод PromptPirate, основанный на генетических алгоритмах, показал себя эффективнее, чем существующие методы, повысив точность восстановления на 8-11%. ## Значимость Результаты исследования имеют большое значение для развития безопасных текстовых генерационных систем. Они могут применяться в разработке защитных методов для предотвращения несанкционированного доступа к текстовым подсказкам. Также, исследование показывает, что модели могут быть значительно улучшены с помощью новых безопасных технологий, которые могут снизить риск текстового взлома. ## Выводы В целом, исследование демонстрирует необходимость в разработке новых методов защиты текстовых подсказок в текстовы

Abstract

Diffusion models have significantly advanced text-to-image generation, enabling the creation of highly realistic images conditioned on textual prompts and seeds. Given the considerable intellectual and economic value embedded in such prompts, prompt theft poses a critical security and privacy concern. In this paper, we investigate prompt-stealing attacks targeting diffusion models. We reveal that numerical optimization-based prompt recovery methods are fundamentally limited as they do not account for the initial random noise used during image generation. We identify and exploit a noise-generation vulnerability (CWE-339), prevalent in major image-generation frameworks, originating from PyTorch's restriction of seed values to a range of $2^{32}$ when generating the initial random noise on CPUs. Through a large-scale empirical analysis conducted on images shared via the popular platform CivitAI, we demonstrate that approximately 95% of these images' seed values can be effectively brute-forced in 140 minutes per seed using our seed-recovery tool, SeedSnitch. Leveraging the recovered seed, we propose PromptPirate, a genetic algorithm-based optimization method explicitly designed for prompt stealing. PromptPirate surpasses state-of-the-art methods, i.e., PromptStealer, P2HP, and CLIP-Interrogator, achieving an 8-11% improvement in LPIPS similarity. Furthermore, we introduce straightforward and effective countermeasures that render seed stealing, and thus optimization-based prompt stealing, ineffective. We have disclosed our findings responsibly and initiated coordinated mitigation efforts with the developers to address this critical vulnerability.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Prompt Pirates Need a Map: Stealing Seeds helps Stealing Prompts

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

A Light-Weight Large Language Model File Format for Highly-Secure Model Distribu...

SoK: a Comprehensive Causality Analysis Framework for Large Language Model Secur...

Hey GPT-OSS, Looks Like You Got It - Now Walk Me Through It! An Assessment of th...

Context-Aware Hierarchical Learning: A Two-Step Paradigm towards Safer LLMs

Large Language Model based Smart Contract Auditing with LLMBugScanner

Навигация