#### Контекст
Large language models (LLM), внедренные в код, провоцируют значительное изменение в сфере разработки программного обеспечения, автоматизируя такие задачи, как тестирование, отладка и исправление. Однако огромные возможности LLMs сопряжены с необходимостью решать проблему безопасности генерируемого ими кода. Небезопасный код может привести к значительным проблемам, таким как утечки данных, взломы и другие уязвимости. Существующие бенчмарки, ориентированные на проверку кода на безопасность, полезны, но имеют ограничения: они часто не учитывают контекст внедрения уязвимостей или используют тестовые протоколы, не полностью отражающие реальную сложность ситуаций. Из-за этого, оценка безопасности генерируемого кода остается недостаточно точной. Чтобы устранить эти проблемы, мы предлагаем **SecureAgentBench** – новый бенчмарк, содержащий 105 задач, который позволяет тщательно оценивать способность кода-агентов генерировать безопасный код в реальных условиях.
#### Метод
**SecureAgentBench** строится на основе 105 реалистичных задач, требующих редактирования нескольких файлов в больших репозиториях. Для каждой задачи мы вводим контекст, основанный на настоящих открытых исходных кодах, где были отслежены точки внедрения уязвимостей. Наша методика включает три ключевых аспекта: (i) **тестирование функциональности**, чтобы убедиться, что решение корректно выполняет задачу, (ii) **проверка уязвимостей** с помощью создания proof-of-concept exploits, и (iii) **детектирование новых уязвимостей**, внедренных агентом в код. Бенчмарк работает с тремя современными большими лингвистическими моделями (LLMs): Claude 3.7 Sonnet, GPT-4.1 и DeepSeek-V3.1. Эти модели были использованы для сгенерированного кода, который последующим образом проверялся на наличие уязвимостей и структурных ошибок.
#### Результаты
Наши эксперименты показали, что хотя LLM-агенты способны генерировать код, который функционирует правильно, они сильно страдают в безопасности. Наилучший результат показал SWE-agent, поддерживаемый DeepSeek-V3.1, который смог выполнить 15.2% задач, сочетающих безопасность и функциональность. Однако даже в этом случае некоторые функционально корректные решения все равно включали в себя новые, незарегистрированные ранее, уязвимости. Заметим, что простой добавлением инструкций по безопасному программированию нельзя полностью решить эту проблему. Эти результаты подтверждают необходимость дальнейшего исследования для создания безопасных кодогенерирующих агентов.
#### Значимость
**SecureAgentBench** может быть применен в различных областях, включая соз