A.S.E: A Repository-Level Benchmark for Evaluating Security in AI-Generated Code

2508.18106v1 cs.SE, cs.AI 2025-08-27
Авторы:

Keke Lian, Bin Wang, Lei Zhang, Libo Chen, Junjie Wang, Ziming Zhao, Yujiu Yang, Haotong Duan, Haoran Zhao, Shuang Liao, Mingda Guo, Jiazheng Quan, Yilu Zhong, Chenhao He, Zichuan Chen, Jie Wu, Haoling Li, Zhaoxuan Li, Jiongchi Yu, Hui Li, Dong Zhang

Резюме на русском

## Контекст Современное программирование становится все более зависимым от искусственного интеллекта, в том числе генерируемого кода с помощью боLТ (больших языковых моделей). Однако необходимо учитывать, что безопасность такого кода часто остается вопросом, так как LLMs могут генерировать код, содержащий уязвимости. Данный аспект становится критичным, когда LLMs используются в критичных системах, таких как финансовые системы, здравоохранение и т. д. Существующие бенчмарки для оценки безопасности генерируемого кода часто ограничиваются изолированными фрагментами кода, не учитывают реальную контексту разработки и имеют проблемы с репродуцируемостью и устойчивостью оценки. Направление развития заключается в создании репрезентативных бенчмарков, которые были бы полностью соответствовали реальным условиям программирования. ## Метод A.S.E (AI Code Generation Security Evaluation) — это репрезентативный бенчмарк для оценки безопасности генерируемого кода на уровне репозиториев. Он строит задачи на основе реальных репозиториев, содержащих уязвимости с легко доступными CVE (Common Vulnerabilities and Exposures). Особенностью A.S.E является контекстная интеграция реальных условий разработки, включая системы сборки и зависимости между файлами. Разработанная оценочная система основывается на контейнеризации и использовании определенных правил, которые позволяют получить отчеты об ошибках и уязвимостях, которые легко воспроизводимы и аудируемы. Бенчмарк оценивает не только безопасность, но и степень корректности сборки и стабильность генерируемого кода. ## Результаты В ходе экспериментов были использованы ведущие модели генерирования кода на основе LLMs. Было проведено несколько экспериментов, в которых была измерена безопасность, степень корректности сборки, а также стабильность генерируемого кода. Для этих целей использовались данные из нескольких реальных репозиториев с документированными CVE. В результате экспериментов были получены следующие выводы: 1. Claude-3.7-Sonnet показал наилучший результат в целом. 2. Qwen3-235B-A22B-Instruct достигла лучшего результата в ситуациях, связанных с безопасностью. 3. Было выявлено, что короткие, более оптимистичные стратегии генерации текста показывают лучшие результаты в ситуациях, требующих быстрого внедрения исправлений. ## Значимость Бенчмарк A.S.E может быть применен во многих областях, где требуется гарантировать безопасность генерируемого кода. Например, в финансовых системах, защите информации, в системах здравоохранения. Он

Abstract

The increasing adoption of large language models (LLMs) in software engineering necessitates rigorous security evaluation of their generated code. However, existing benchmarks are inadequate, as they focus on isolated code snippets, employ unstable evaluation methods that lack reproducibility, and fail to connect the quality of input context with the security of the output. To address these gaps, we introduce A.S.E (AI Code Generation Security Evaluation), a benchmark for repository-level secure code generation. A.S.E constructs tasks from real-world repositories with documented CVEs, preserving full repository context like build systems and cross-file dependencies. Its reproducible, containerized evaluation framework uses expert-defined rules to provide stable, auditable assessments of security, build quality, and generation stability. Our evaluation of leading LLMs on A.S.E reveals three key findings: (1) Claude-3.7-Sonnet achieves the best overall performance. (2) The security gap between proprietary and open-source models is narrow; Qwen3-235B-A22B-Instruct attains the top security score. (3) Concise, ``fast-thinking'' decoding strategies consistently outperform complex, ``slow-thinking'' reasoning for security patching.

Ссылки и действия