A Framework for Rapidly Developing and Deploying Protection Against Large Language Model Attacks

2509.20639v1 cs.CR, cs.AI 2025-09-26
Авторы:

Adam Swanda, Amy Chang, Alexander Chen, Fraser Burch, Paul Kassianik, Konstantin Berlin

Резюме на русском

## Контекст Large Language Models (LLMs) превратились в ключевой инструмент для развития и развертывания искусственного интеллекта. Их интуитивные интерфейсы и улучшения моделей в реальном времени позволяют использовать их в различных областях, включая онлайн-сервисы, роботы-менеджеры, интеллектуальные помощники и др. Однако, вместе с этим растет и риск их злоупотребления. Повышенная степень автономности и расширение доступа к таким системам делают их привлекательными целями для атак. Несмотря на то, что существуют системы защиты от злоупотреблений LLMs, они не могут предотвратить новые, неизвестные атаки (zero-day). Этот взломосклонный характер LLMs требует новых подходов к защите, которые бы стали аналогами систем защиты от массовых вирусов и троянов. ## Метод Мы предлагаем рамку для быстрого развития и развертывания защиты LLMs, основанную на методах защиты от троянов и вирусов. Рамка включает три основных компонента: 1. **Threat Intelligence System** – система, позволяющая агрегировать и обрабатывать информацию о новых угрозах, их превращать в защитные меры и распространять их по системе. 2. **Data Platform** – система, которая собирает, обрабатывает и мониторит данные, предоставляя возможность наблюдать за поведением LLMs и работать с моделями машинного обучения. 3. **Release Platform** – система, позволяющая безопасно и быстро развертывать защитные обновления без привлечения внешних разработчиков и прерывания работы клиентов. Основной принцип действия рамки заключается в создании многослойной защиты от новых и известных угроз, которая может быть быстро адаптирована под изменения в среде. ## Результаты Мы проверили нашу рамку на данных из реальных ситуаций, включая атаки на LLMs. Мы сравнили результаты с другими классическими методами защиты и показали, что наша система выделяется своей быстротой и гибкостью при отклике на новые угрозы. Мы также протестировали эффективность каждого компонента по отдельности, в том числе Threat Intelligence System и Data Platform, и обнаружили, что модели машинного обучения, используемые в рамке, достаточно точны в распознавании неизвестных атак. ## Значимость Предлагаемая рамка может использоваться в различных областях, где LLMs применяются в автономных или семи-автономных режимах. У нее есть несколько преимуществ: - Эффективность в борьбе с zero-day-атаками. - Быстрая реакция на новые угрозы. - Систематическое улучшение защиты благодаря встроенной системе Threat Intelligence. Рамка может быть применена в различных отраслях, например, в fintech, здравоохранении и робототехнике. ## Выводы Мы представили рамку, которая предоставляет эффективную защиту LLMs от

Abstract

The widespread adoption of Large Language Models (LLMs) has revolutionized AI deployment, enabling autonomous and semi-autonomous applications across industries through intuitive language interfaces and continuous improvements in model development. However, the attendant increase in autonomy and expansion of access permissions among AI applications also make these systems compelling targets for malicious attacks. Their inherent susceptibility to security flaws necessitates robust defenses, yet no known approaches can prevent zero-day or novel attacks against LLMs. This places AI protection systems in a category similar to established malware protection systems: rather than providing guaranteed immunity, they minimize risk through enhanced observability, multi-layered defense, and rapid threat response, supported by a threat intelligence function designed specifically for AI-related threats. Prior work on LLM protection has largely evaluated individual detection models rather than end-to-end systems designed for continuous, rapid adaptation to a changing threat landscape. We present a production-grade defense system rooted in established malware detection and threat intelligence practices. Our platform integrates three components: a threat intelligence system that turns emerging threats into protections; a data platform that aggregates and enriches information while providing observability, monitoring, and ML operations; and a release platform enabling safe, rapid detection updates without disrupting customer workflows. Together, these components deliver layered protection against evolving LLM threats while generating training data for continuous model improvement and deploying updates without interrupting production.

Ссылки и действия