Dynamic Benchmark Construction for Evaluating Large Language Models on Real-World Codes

2508.07180v1 cs.SE, cs.AI 2025-08-13

Авторы:

Zhe Zhang, Runlin Liu, Aishan Liu, Xingyu Liu, Xiang Gao, Hailong Sun

Резюме на русском

#### Контекст Стремительно растущее влияние больших языковых моделей (LLMs) в процессе разработки программного обеспечения приводит к необходимости надёжного и строгого оценивания их работы на реальных задачах генерации кода. Однако существующие бенчмарки часто страдают от загрязнения данными и недостаточно высокого тестирующего режима, что ограничивает их возможность выявлять недостатки моделей. Мы предлагаем CODE2BENCH, новый концептуальный подход для динамического создания бенчмарков, способных выдерживать сильные нагрузки и гарантировать чистую среду для тестирования. #### Метод Предлагаемая методология CODE2BENCH заключается в автоматическом создании бенчмарков на основе реальных репозиториев GitHub. Особенности: (1) **Автоматизированная динамичность**, которая обеспечивается постоянным обновлением бенчмарков путём внедрения новых репозиториев и функций, что минимизирует вероятность загрязнения данными. (2) **Анализ зависимостей с использованием Scope Graph**, позволяющий классифицировать функции в зависимости от уровня самостоятельности. Это позволяет создавать бенчмарки с разными уровнями зависимости, включая Self-Contained (SC) для кросс-языкового сравнения и Weakly Self-Contained (WSC) для работы с допустимыми библиотеками. (3) **Тестирование на основе свойств (Property-Based Testing, PBT)**, которое автоматически генерирует тщательные тестовые наборы для проверки функций на функциональную корректность. #### Результаты Используя CODE2BENCH, мы построили CODE2BENCH-2505 — первый бенчмарк, состоящий из 880 Python-репозиториев, с 1,163 функциональными задачами для генерации кода, покрытыми 100% абстрактным синтезом. Мы провели эксперименты с 16 LLMs, включая PaLM, CodeGen, StarCoder и другие. Результаты показали, что модели сталкиваются с трудностями в решении Self-Contained (SC) задач, требующих сложной логики и пересечений языков, но в то же время вы mostsravlyaют лучшую производительность на Weakly Self-Contained (WSC) задачах. #### Значимость Новая подход, представленный в этой работе, предоставляет широкие возможности для лингвистических моделей и библиотек, работающих с программным кодом. Он позволяет создавать бенчмарки, которые устойчивы к загрязнению данными и выполняются в реальных условиях. Важность этого подхода проявляется в улучшении оценки моделей, их применении в разработке программного обеспечения и дальнейшей интеграции технологий LLMs в процесс разработки. #### Выводы Мы представили CODE2BENCH, создав динамический и нагруженный метод для создания бенчмарков. Этот подход является первым шагом в создании устойчивых к загрязнению, но надежных методов оцен

Abstract

As large language models LLMs) become increasingly integrated into software development workflows, rigorously evaluating their performance on complex, real-world code generation tasks has become essential. However, existing benchmarks often suffer from data contamination and limited test rigor, constraining their ability to reveal model failures effectively. To address these, we present CODE2BENCH, a end-to-end pipeline for dynamically constructing robust and contamination-resistant benchmarks from real-world GitHub repositories. Specifically, CODE2BENCH introduces three key innovations: (1) Automated Dynamism, achieved through periodic ingestion of recent code to minimize training data contamination; (2) Scope Graph-based dependency analysis, which enables structured classification of functions into benchmark instances with controlled dependency levels (distinguishing between Self-Contained (SC) tasks for cross-language evaluation and Weakly Self-Contained (WSC) tasks involving permitted library usage); and (3) Property-Based Testing (PBT) for the automated synthesis of rigorous test suites to enable thorough functional verification. Using this pipeline, we construct CODE2BENCH-2505, the first benchmark derived from 880 recent Python projects spanning diverse domains, comprising 1,163 code generation tasks with 100% average branch coverage on ground-truth implementations. Extensive evaluation of 16 LLMs using CODE2BENCH-2505 reveals that models consistently struggle with SC tasks requiring complex, non-standard logic and cross-language transfer, while showing relatively stronger performance on WSC tasks in Python. Our work introduces a contamination-resistant, language-agnostic methodology for dynamic benchmark construction, offering a principled foundation for the comprehensive and realistic evaluation of LLMs on real-world software development tasks.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Dynamic Benchmark Construction for Evaluating Large Language Models on Real-World Codes

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Automating Complex Document Workflows via Stepwise and Rollback-Enabled Operatio...

Quantitative Analysis of Technical Debt and Pattern Violation in Large Language ...

MANTRA: a Framework for Multi-stage Adaptive Noise TReAtment During Training

Beyond Greenfield: The D3 Framework for AI-Driven Productivity in Brownfield Eng...

LLM-as-a-Judge for Scalable Test Coverage Evaluation: Accuracy, Operational Reli...

Навигация