SecureAgentBench: Benchmarking Secure Code Generation under Realistic Vulnerability Scenarios
2509.22097v1
cs.SE, cs.AI, cs.CL, cs.CR
2025-09-30
Авторы:
Junkai Chen, Huihui Huang, Yunbo Lyu, Junwen An, Jieke Shi, Chengran Yang, Ting Zhang, Haoye Tian, Yikun Li, Zhenhao Li, Xin Zhou, Xing Hu, David Lo
Резюме на русском
#### Контекст
Large language models (LLM), внедренные в код, провоцируют значительное изменение в сфере разработки программного обеспечения, автоматизируя такие задачи, как тестирование, отладка и исправление. Однако огромные возможности LLMs сопряжены с необходимостью решать проблему безопасности генерируемого ими кода. Небезопасный код может привести к значительным проблемам, таким как утечки данных, взломы и другие уязвимости. Существующие бенчмарки, ориентированные на проверку кода на безопасность, полезны, но имеют ограничения: они часто не учитывают контекст внедрения уязвимостей или используют тестовые протоколы, не полностью отражающие реальную сложность ситуаций. Из-за этого, оценка безопасности генерируемого кода остается недостаточно точной. Чтобы устранить эти проблемы, мы предлагаем **SecureAgentBench** – новый бенчмарк, содержащий 105 задач, который позволяет тщательно оценивать способность кода-агентов генерировать безопасный код в реальных условиях.
#### Метод
**SecureAgentBench** строится на основе 105 реалистичных задач, требующих редактирования нескольких файлов в больших репозиториях. Для каждой задачи мы вводим контекст, основанный на настоящих открытых исходных кодах, где были отслежены точки внедрения уязвимостей. Наша методика включает три ключевых аспекта: (i) **тестирование функциональности**, чтобы убедиться, что решение корректно выполняет задачу, (ii) **проверка уязвимостей** с помощью создания proof-of-concept exploits, и (iii) **детектирование новых уязвимостей**, внедренных агентом в код. Бенчмарк работает с тремя современными большими лингвистическими моделями (LLMs): Claude 3.7 Sonnet, GPT-4.1 и DeepSeek-V3.1. Эти модели были использованы для сгенерированного кода, который последующим образом проверялся на наличие уязвимостей и структурных ошибок.
#### Результаты
Наши эксперименты показали, что хотя LLM-агенты способны генерировать код, который функционирует правильно, они сильно страдают в безопасности. Наилучший результат показал SWE-agent, поддерживаемый DeepSeek-V3.1, который смог выполнить 15.2% задач, сочетающих безопасность и функциональность. Однако даже в этом случае некоторые функционально корректные решения все равно включали в себя новые, незарегистрированные ранее, уязвимости. Заметим, что простой добавлением инструкций по безопасному программированию нельзя полностью решить эту проблему. Эти результаты подтверждают необходимость дальнейшего исследования для создания безопасных кодогенерирующих агентов.
#### Значимость
**SecureAgentBench** может быть применен в различных областях, включая соз
Abstract
Large language model (LLM) powered code agents are rapidly transforming
software engineering by automating tasks such as testing, debugging, and
repairing, yet the security risks of their generated code have become a
critical concern. Existing benchmarks have offered valuable insights but remain
insufficient: they often overlook the genuine context in which vulnerabilities
were introduced or adopt narrow evaluation protocols that fail to capture
either functional correctness or newly introduced vulnerabilities. We therefore
introduce SecureAgentBench, a benchmark of 105 coding tasks designed to
rigorously evaluate code agents' capabilities in secure code generation. Each
task includes (i) realistic task settings that require multi-file edits in
large repositories, (ii) aligned contexts based on real-world open-source
vulnerabilities with precisely identified introduction points, and (iii)
comprehensive evaluation that combines functionality testing, vulnerability
checking through proof-of-concept exploits, and detection of newly introduced
vulnerabilities using static analysis. We evaluate three representative agents
(SWE-agent, OpenHands, and Aider) with three state-of-the-art LLMs (Claude 3.7
Sonnet, GPT-4.1, and DeepSeek-V3.1). Results show that (i) current agents
struggle to produce secure code, as even the best-performing one, SWE-agent
supported by DeepSeek-V3.1, achieves merely 15.2% correct-and-secure solutions,
(ii) some agents produce functionally correct code but still introduce
vulnerabilities, including new ones not previously recorded, and (iii) adding
explicit security instructions for agents does not significantly improve secure
coding, underscoring the need for further research. These findings establish
SecureAgentBench as a rigorous benchmark for secure code generation and a step
toward more reliable software development with LLMs.