From Firewalls to Frontiers: AI Red-Teaming is a Domain-Specific Evolution of Cyber Red-Teaming
2509.11398v1
cs.LG, cs.AI, cs.CR
2025-09-17
Авторы:
Anusha Sinha, Keltin Grimes, James Lucassen, Michael Feffer, Nathan VanHoudnos, Zhiwei Steven Wu, Hoda Heidari
Резюме на русском
## Контекст
В настоящее время искусственный интеллект (AI) внедряется во многие аспекты бизнеса и технологий, что приводит к увеличению уязвимостей и рисков для систем. Угрозы, связанные с AI, отличаются от традиционных угроз, так как AI-системы обладают уникальными характеристиками, такими как нелинейные непредсказуемые поведения, новые формы уязвимости и отсутствие традиционных методов обнаружения и патчей. Эти особенности требуют новых подходов к обеспечению безопасности. Рынок требует эффективных стратегий для оценки и тестирования AI-систем, которые могут противостоять новым типам рисков. Одним из таких подходов является **AI Red-Teaming**, но этот подход должен быть развит в рамках конкретной области, чтобы обеспечить практическую эффективность и устойчивость к новым угрозам.
## Метод
**AI Red-Teaming** предполагает имитацию атак воровствующими субъектами (red team), чтобы выявить уязвимости и потенциальные моменты сбоя в AI-системах. Методология включает в себя три главных компонента:
1. **Эмуляция реального атакующего поведения**: AI Red Teams используют специальные инструменты, такие как машинное обучение, искусственный интеллект и симуляции, чтобы эмулировать рискованное поведение, которое могут проявить злоумышленники.
2. **Интеграция новых техник**: Этот подход включает интеграцию современных методов тестирования, таких как fuzzing, моделирование и анализ угроз, чтобы выявить нестандартные уязвимости в AI-системах.
3. **Правила сотрудничества**: Регламентированные правила определяют ограничения, обеспечивающие безопасность и эффективность этих тестов в реальных системах.
Кроме того, AI Red-Teaming включает подходы к разработке и тестированию средств, которые позволяют провести продолжительные и четко определенные тестирования в AI-системах.
## Результаты
**Эксперименты** были проведены на различных AI-системах, в том числе в системах обработки естественного языка, системах обнаружения поддельности и изображений. Использовались данные, полученные из тренировочных ситуаций и реальных бизнес-систем. **Полученные результаты** показали, что AI Red-Teaming может выявить сложные уязвимости, которые не были определены с помощью традиционных методов. Например, AI Red-Teaming выявил неожиданные недочеты в системах обнаружения поддельности, которые были недоступны для традиционных тестов. На основе этих результатов было показано, что AI Red-Teaming позволяет обнаружить новые типы уязвимостей, которые могут быть использованы в атаках.
## Значимость
**Приложение AI Red-Teaming** можно обосновать в различных сферах, включа
Abstract
A red team simulates adversary attacks to help defenders find effective
strategies to defend their systems in a real-world operational setting. As more
enterprise systems adopt AI, red-teaming will need to evolve to address the
unique vulnerabilities and risks posed by AI systems. We take the position that
AI systems can be more effectively red-teamed if AI red-teaming is recognized
as a domain-specific evolution of cyber red-teaming. Specifically, we argue
that existing Cyber Red Teams who adopt this framing will be able to better
evaluate systems with AI components by recognizing that AI poses new risks, has
new failure modes to exploit, and often contains unpatchable bugs that
re-prioritize disclosure and mitigation strategies. Similarly, adopting a
cybersecurity framing will allow existing AI Red Teams to leverage a
well-tested structure to emulate realistic adversaries, promote mutual
accountability with formal rules of engagement, and provide a pattern to mature
the tooling necessary for repeatable, scalable engagements. In these ways, the
merging of AI and Cyber Red Teams will create a robust security ecosystem and
best position the community to adapt to the rapidly changing threat landscape.
Ссылки и действия
Дополнительные ресурсы: