SecureAgentBench: Benchmarking Secure Code Generation under Realistic Vulnerability Scenarios

2509.22097v1 cs.SE, cs.AI, cs.CL, cs.CR 2025-09-30

Авторы:

Junkai Chen, Huihui Huang, Yunbo Lyu, Junwen An, Jieke Shi, Chengran Yang, Ting Zhang, Haoye Tian, Yikun Li, Zhenhao Li, Xin Zhou, Xing Hu, David Lo

Резюме на русском

#### Контекст Large language models (LLM), внедренные в код, провоцируют значительное изменение в сфере разработки программного обеспечения, автоматизируя такие задачи, как тестирование, отладка и исправление. Однако огромные возможности LLMs сопряжены с необходимостью решать проблему безопасности генерируемого ими кода. Небезопасный код может привести к значительным проблемам, таким как утечки данных, взломы и другие уязвимости. Существующие бенчмарки, ориентированные на проверку кода на безопасность, полезны, но имеют ограничения: они часто не учитывают контекст внедрения уязвимостей или используют тестовые протоколы, не полностью отражающие реальную сложность ситуаций. Из-за этого, оценка безопасности генерируемого кода остается недостаточно точной. Чтобы устранить эти проблемы, мы предлагаем **SecureAgentBench** – новый бенчмарк, содержащий 105 задач, который позволяет тщательно оценивать способность кода-агентов генерировать безопасный код в реальных условиях. #### Метод **SecureAgentBench** строится на основе 105 реалистичных задач, требующих редактирования нескольких файлов в больших репозиториях. Для каждой задачи мы вводим контекст, основанный на настоящих открытых исходных кодах, где были отслежены точки внедрения уязвимостей. Наша методика включает три ключевых аспекта: (i) **тестирование функциональности**, чтобы убедиться, что решение корректно выполняет задачу, (ii) **проверка уязвимостей** с помощью создания proof-of-concept exploits, и (iii) **детектирование новых уязвимостей**, внедренных агентом в код. Бенчмарк работает с тремя современными большими лингвистическими моделями (LLMs): Claude 3.7 Sonnet, GPT-4.1 и DeepSeek-V3.1. Эти модели были использованы для сгенерированного кода, который последующим образом проверялся на наличие уязвимостей и структурных ошибок. #### Результаты Наши эксперименты показали, что хотя LLM-агенты способны генерировать код, который функционирует правильно, они сильно страдают в безопасности. Наилучший результат показал SWE-agent, поддерживаемый DeepSeek-V3.1, который смог выполнить 15.2% задач, сочетающих безопасность и функциональность. Однако даже в этом случае некоторые функционально корректные решения все равно включали в себя новые, незарегистрированные ранее, уязвимости. Заметим, что простой добавлением инструкций по безопасному программированию нельзя полностью решить эту проблему. Эти результаты подтверждают необходимость дальнейшего исследования для создания безопасных кодогенерирующих агентов. #### Значимость **SecureAgentBench** может быть применен в различных областях, включая соз

Abstract

Large language model (LLM) powered code agents are rapidly transforming software engineering by automating tasks such as testing, debugging, and repairing, yet the security risks of their generated code have become a critical concern. Existing benchmarks have offered valuable insights but remain insufficient: they often overlook the genuine context in which vulnerabilities were introduced or adopt narrow evaluation protocols that fail to capture either functional correctness or newly introduced vulnerabilities. We therefore introduce SecureAgentBench, a benchmark of 105 coding tasks designed to rigorously evaluate code agents' capabilities in secure code generation. Each task includes (i) realistic task settings that require multi-file edits in large repositories, (ii) aligned contexts based on real-world open-source vulnerabilities with precisely identified introduction points, and (iii) comprehensive evaluation that combines functionality testing, vulnerability checking through proof-of-concept exploits, and detection of newly introduced vulnerabilities using static analysis. We evaluate three representative agents (SWE-agent, OpenHands, and Aider) with three state-of-the-art LLMs (Claude 3.7 Sonnet, GPT-4.1, and DeepSeek-V3.1). Results show that (i) current agents struggle to produce secure code, as even the best-performing one, SWE-agent supported by DeepSeek-V3.1, achieves merely 15.2% correct-and-secure solutions, (ii) some agents produce functionally correct code but still introduce vulnerabilities, including new ones not previously recorded, and (iii) adding explicit security instructions for agents does not significantly improve secure coding, underscoring the need for further research. These findings establish SecureAgentBench as a rigorous benchmark for secure code generation and a step toward more reliable software development with LLMs.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Резюме на русском

Abstract

Ссылки и действия

Навигация