From Firewalls to Frontiers: AI Red-Teaming is a Domain-Specific Evolution of Cyber Red-Teaming

2509.11398v1 cs.LG, cs.AI, cs.CR 2025-09-17
Авторы:

Anusha Sinha, Keltin Grimes, James Lucassen, Michael Feffer, Nathan VanHoudnos, Zhiwei Steven Wu, Hoda Heidari

Резюме на русском

## Контекст В настоящее время искусственный интеллект (AI) внедряется во многие аспекты бизнеса и технологий, что приводит к увеличению уязвимостей и рисков для систем. Угрозы, связанные с AI, отличаются от традиционных угроз, так как AI-системы обладают уникальными характеристиками, такими как нелинейные непредсказуемые поведения, новые формы уязвимости и отсутствие традиционных методов обнаружения и патчей. Эти особенности требуют новых подходов к обеспечению безопасности. Рынок требует эффективных стратегий для оценки и тестирования AI-систем, которые могут противостоять новым типам рисков. Одним из таких подходов является **AI Red-Teaming**, но этот подход должен быть развит в рамках конкретной области, чтобы обеспечить практическую эффективность и устойчивость к новым угрозам. ## Метод **AI Red-Teaming** предполагает имитацию атак воровствующими субъектами (red team), чтобы выявить уязвимости и потенциальные моменты сбоя в AI-системах. Методология включает в себя три главных компонента: 1. **Эмуляция реального атакующего поведения**: AI Red Teams используют специальные инструменты, такие как машинное обучение, искусственный интеллект и симуляции, чтобы эмулировать рискованное поведение, которое могут проявить злоумышленники. 2. **Интеграция новых техник**: Этот подход включает интеграцию современных методов тестирования, таких как fuzzing, моделирование и анализ угроз, чтобы выявить нестандартные уязвимости в AI-системах. 3. **Правила сотрудничества**: Регламентированные правила определяют ограничения, обеспечивающие безопасность и эффективность этих тестов в реальных системах. Кроме того, AI Red-Teaming включает подходы к разработке и тестированию средств, которые позволяют провести продолжительные и четко определенные тестирования в AI-системах. ## Результаты **Эксперименты** были проведены на различных AI-системах, в том числе в системах обработки естественного языка, системах обнаружения поддельности и изображений. Использовались данные, полученные из тренировочных ситуаций и реальных бизнес-систем. **Полученные результаты** показали, что AI Red-Teaming может выявить сложные уязвимости, которые не были определены с помощью традиционных методов. Например, AI Red-Teaming выявил неожиданные недочеты в системах обнаружения поддельности, которые были недоступны для традиционных тестов. На основе этих результатов было показано, что AI Red-Teaming позволяет обнаружить новые типы уязвимостей, которые могут быть использованы в атаках. ## Значимость **Приложение AI Red-Teaming** можно обосновать в различных сферах, включа

Abstract

A red team simulates adversary attacks to help defenders find effective strategies to defend their systems in a real-world operational setting. As more enterprise systems adopt AI, red-teaming will need to evolve to address the unique vulnerabilities and risks posed by AI systems. We take the position that AI systems can be more effectively red-teamed if AI red-teaming is recognized as a domain-specific evolution of cyber red-teaming. Specifically, we argue that existing Cyber Red Teams who adopt this framing will be able to better evaluate systems with AI components by recognizing that AI poses new risks, has new failure modes to exploit, and often contains unpatchable bugs that re-prioritize disclosure and mitigation strategies. Similarly, adopting a cybersecurity framing will allow existing AI Red Teams to leverage a well-tested structure to emulate realistic adversaries, promote mutual accountability with formal rules of engagement, and provide a pattern to mature the tooling necessary for repeatable, scalable engagements. In these ways, the merging of AI and Cyber Red Teams will create a robust security ecosystem and best position the community to adapt to the rapidly changing threat landscape.

Ссылки и действия