GitTaskBench: A Benchmark for Code Agents Solving Real-World Tasks Through Code Repository Leveraging

2508.18993v1 cs.SE, cs.AI 2025-08-28

Авторы:

Ziyi Ni, Huacan Wang, Shuo Zhang, Shuo Lu, Ziyang He, Wang You, Zhenheng Tang, Yuntao Du, Bill Sun, Hongzhang Liu, Sen Hu, Ronghao Chen, Bo Li, Xin Li, Chen Hu, Binxing Jiao, Daxin Jiang, Pin Lyu

Резюме на русском

## Контекст В современном программном обеспечении, помимо основной разработки программного кода, крайне важно мочь использовать богатые ресурсы, такие как GitHub, для решения реальных проблем. Однако, существующие бенчмарки не уделяют достаточного внимания реальной рабочей области, в которой агенты должны решать задачи, вовлекающие целый цикл разработки. Эта ситуация создает пробел в развитии инструментов, которые могут анализировать и использовать код в реальных сценариях. Мы предлагаем GitTaskBench, новый бенчмарк, который стремится решить эту проблему, оценивая возможности агентов по работе с реальными репозиториями для решения сложных задач. ## Метод GitTaskBench состоит из 54 задач, разделенных на 7 модальностей и 7 тематических областей. Каждая задача включает в себя репозиторий с кодом и автоматизированное оценочное тестирование, определяющее успех по задаче. Мы также ввели метрику alpha-value, которая оценивает экономическую эффективность решения задачи в сочетании с успехом выполнения и затратами ресурсов. Эта метрика включает в себя успевшую выполненную работу, затраты на выполнение (в токенах) и средние зарплаты разработчиков. Мы выполнили эксперименты, используя три современных фреймворка для решения задач с различными моделями языковых моделей. ## Результаты Эксперименты показали, что даже самые удачные системы, такие как OpenHands+Claude 3.7, могут решить только 48.15% задач, а остальные 51.85% задач требуют большего внимания к деталям, таким как настройка среды и установка зависимостей. Мы провели анализ ошибок, определив, что более 50% ошибок связаны с этими небольшими, но критичными действиями, которые важны для успешного выполнения задачи. Эти результаты подчеркивают необходимость в развитии более глубокой рабочей модели и увеличении времени отклика. ## Значимость Помимо того, что GitTaskBench может использоваться для оценки возможностей агентов в решении реальных задач, он также может быть полезен для разработки новых методов, которые могут быть использованы в различных приложениях. Например, он может быть использован для улучшения рабочих процессов, увеличения точности решения задач и уменьшения времени разработки. Мы верим, что данный бенчмарк может способствовать развитию новых технологий, которые могут быть применены в настоящем. ## Выводы Мы представили GitTaskBench, новый бенчмарк для оценки возможностей решения реальных задач с использованием репозиториев кудавом кода. Мы показали, что данный бенчмарк может быть использован для тестирования и развития новых моделей, которые будут улучшать возможности решения задач в реальном мире. Мы определили некоторые затрудн

Abstract

Beyond scratch coding, exploiting large-scale code repositories (e.g., GitHub) for practical tasks is vital in real-world software development, yet current benchmarks rarely evaluate code agents in such authentic, workflow-driven scenarios. To bridge this gap, we introduce GitTaskBench, a benchmark designed to systematically assess this capability via 54 realistic tasks across 7 modalities and 7 domains. Each task pairs a relevant repository with an automated, human-curated evaluation harness specifying practical success criteria. Beyond measuring execution and task success, we also propose the alpha-value metric to quantify the economic benefit of agent performance, which integrates task success rates, token cost, and average developer salaries. Experiments across three state-of-the-art agent frameworks with multiple advanced LLMs show that leveraging code repositories for complex task solving remains challenging: even the best-performing system, OpenHands+Claude 3.7, solves only 48.15% of tasks. Error analysis attributes over half of failures to seemingly mundane yet critical steps like environment setup and dependency resolution, highlighting the need for more robust workflow management and increased timeout preparedness. By releasing GitTaskBench, we aim to drive progress and attention toward repository-aware code reasoning, execution, and deployment -- moving agents closer to solving complex, end-to-end real-world tasks. The benchmark and code are open-sourced at https://github.com/QuantaAlpha/GitTaskBench.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

GitTaskBench: A Benchmark for Code Agents Solving Real-World Tasks Through Code Repository Leveraging

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Automating Complex Document Workflows via Stepwise and Rollback-Enabled Operatio...

Quantitative Analysis of Technical Debt and Pattern Violation in Large Language ...

MANTRA: a Framework for Multi-stage Adaptive Noise TReAtment During Training

Beyond Greenfield: The D3 Framework for AI-Driven Productivity in Brownfield Eng...

LLM-as-a-Judge for Scalable Test Coverage Evaluation: Accuracy, Operational Reli...

Навигация