ASTRA: Autonomous Spatial-Temporal Red-teaming for AI Software Assistants
2508.03936v1
cs.CR, cs.CL, cs.LG, cs.SE
2025-08-09
Авторы:
Xiangzhe Xu, Guangyu Shen, Zian Su, Siyuan Cheng, Hanxi Guo, Lu Yan, Xuan Chen, Jiasheng Jiang, Xiaolong Jin, Chengpeng Wang, Zhuo Zhang, Xiangyu Zhang
Резюме на русском
Развитие AI-драйвенных кодинг-ассистентов, таких как GitHub Copilot, достигает новых высот, но их безопасность в высокорисковых сферах, таких как кибербезопасность, остается нерешительной. Большинство существующих средств red-teaming ограничены фиксированными бенчмарками или артефактами, не отражающими реальных сценариев использования. Мы представляем ASTRA — систему автоматизированных агентов, разработанную для точечного выявления уязвимостей в AI-системах кода и рекомендаций по безопасности. ASTRA работает в трех этапах: строит доменно-специфические знаний-графы для моделирования задач и известных уязвимостей, проводит онлайн-выявление уязвимостей через спациальную и темпоральную проверку взаимодействия модели, и генерирует реалистичные, воздействующие на эффективность тестовые случаи. В отличие от предыдущих подходов, ASTRA использует реалистичные запросы разработчиков и оптимизирует знаний-графы в реальном времени. Оно выявило 11–66% больше уязвимостей по сравнению с конкурентами и улучшило обучение модели на 17%, демонстрируя свою практическую значимость для улучшения безопасности AI-систем.
Abstract
AI coding assistants like GitHub Copilot are rapidly transforming software
development, but their safety remains deeply uncertain-especially in
high-stakes domains like cybersecurity. Current red-teaming tools often rely on
fixed benchmarks or unrealistic prompts, missing many real-world
vulnerabilities. We present ASTRA, an automated agent system designed to
systematically uncover safety flaws in AI-driven code generation and security
guidance systems. ASTRA works in three stages: (1) it builds structured
domain-specific knowledge graphs that model complex software tasks and known
weaknesses; (2) it performs online vulnerability exploration of each target
model by adaptively probing both its input space, i.e., the spatial
exploration, and its reasoning processes, i.e., the temporal exploration,
guided by the knowledge graphs; and (3) it generates high-quality
violation-inducing cases to improve model alignment. Unlike prior methods,
ASTRA focuses on realistic inputs-requests that developers might actually
ask-and uses both offline abstraction guided domain modeling and online domain
knowledge graph adaptation to surface corner-case vulnerabilities. Across two
major evaluation domains, ASTRA finds 11-66% more issues than existing
techniques and produces test cases that lead to 17% more effective alignment
training, showing its practical value for building safer AI systems.