Cross-Service Threat Intelligence in LLM Services using Privacy-Preserving Fingerprints
2509.05608v1
cs.CR, cs.AI, cs.CL, cs.LG
2025-09-10
Авторы:
Waris Gill, Natalie Isak, Matthew Dressman
Резюме на русском
#### Контекст
С появлением широкоизвестных языковых моделей (LLM) в энтерпрайз-системах возникла новая критическая проблема безопасности — распространение проблемы "промусолка инъекции запросов" (prompt injection attacks). Эти атаки могут повторяться в нескольких сервисах, которые обрабатывают пользовательские запросы, но существуют жесткие нормативные ограничения на обмен информацией об атаках. Регулярные требования препятствуют обмену жалобами и данными о проблемах между сервисами, что приводит к тому, что одни сервисы могут недостаточно быстро реагировать на подозрительные активности. Многие организации не могут полноценно оценить угрозы, так как не могут получить доступ к анализу данных из других сервисов. Однако, если бы была возможность безопасного обмена угрозными моделями взаимно полезной информацией, без разглашения конфиденциальных данных, это было бы ключевым решением для повышения безопасности.
#### Метод
Мы предлагаем BinaryShield, новую систему, которая позволяет безопасно обмениваться "угрозными отпечатками" (threat fingerprints) между LLM-сервисами. Метод шифрует данные, используя технологии, которые позволяют избежать раскрытия конфиденциальных данных в ходе обмена. Базовая идея заключается в том, чтобы превратить подозрительные запросы в некоторую форму уникальных "отпечатков", которые в то же время могут быть использованы для поиска подозрительных моделей, но не выдают информации, которая может подвергнуться неправомерному использованию. Основные этапы методики включают (1) удаление личных данных (PII redaction), (2) преобразование запросов в семантические ин Eмбеддинги (semantic embedding), (3) кодирование данных в бинарный формат (binary quantization), и (4) применение механизма случайных ответов (randomized response) для гарантии конфиденциальности.
#### Результаты
Мы провели ряд экспериментов для проверки эффективности BinaryShield. Использованы данные, содержащие подозрительные запросы, которые были сравнивались с другими данными для поиска подозрительных моделей. Метод BinaryShield показал высокую точность — F1-меру достигла 0.94, что значительно выше, чем у SimHash (0.77), стандартного метода приватности. Одновременно, BinaryShield позволил сократить требуемое место на хранения данных в 64 раза и увеличить скорость поиска подозрительных моделей в 38 раз по сравнению с традиционным подходом, основанным на технологии dense embeddings.
#### Значимость
BinaryShield демонстрирует значительный потенциал в обеспечении безопасности в сфере LLM-сервисов. Он предоставляет возможность для безопасного обмена информацией об угрозах между различными сервисами, даже если они работают в разных регуляторных сферах.
Abstract
The widespread deployment of LLMs across enterprise services has created a
critical security blind spot. Organizations operate multiple LLM services
handling billions of queries daily, yet regulatory compliance boundaries
prevent these services from sharing threat intelligence about prompt injection
attacks, the top security risk for LLMs. When an attack is detected in one
service, the same threat may persist undetected in others for months, as
privacy regulations prohibit sharing user prompts across compliance boundaries.
We present BinaryShield, the first privacy-preserving threat intelligence
system that enables secure sharing of attack fingerprints across compliance
boundaries. BinaryShield transforms suspicious prompts through a unique
pipeline combining PII redaction, semantic embedding, binary quantization, and
randomized response mechanism to potentially generate non-invertible
fingerprints that preserve attack patterns while providing privacy. Our
evaluations demonstrate that BinaryShield achieves an F1-score of 0.94,
significantly outperforming SimHash (0.77), the privacy-preserving baseline,
while achieving 64x storage reduction and 38x faster similarity search compared
to dense embeddings.