GitTaskBench: A Benchmark for Code Agents Solving Real-World Tasks Through Code Repository Leveraging
2508.18993v1
cs.SE, cs.AI
2025-08-28
Авторы:
Ziyi Ni, Huacan Wang, Shuo Zhang, Shuo Lu, Ziyang He, Wang You, Zhenheng Tang, Yuntao Du, Bill Sun, Hongzhang Liu, Sen Hu, Ronghao Chen, Bo Li, Xin Li, Chen Hu, Binxing Jiao, Daxin Jiang, Pin Lyu
Резюме на русском
## Контекст
В современном программном обеспечении, помимо основной разработки программного кода, крайне важно мочь использовать богатые ресурсы, такие как GitHub, для решения реальных проблем. Однако, существующие бенчмарки не уделяют достаточного внимания реальной рабочей области, в которой агенты должны решать задачи, вовлекающие целый цикл разработки. Эта ситуация создает пробел в развитии инструментов, которые могут анализировать и использовать код в реальных сценариях. Мы предлагаем GitTaskBench, новый бенчмарк, который стремится решить эту проблему, оценивая возможности агентов по работе с реальными репозиториями для решения сложных задач.
## Метод
GitTaskBench состоит из 54 задач, разделенных на 7 модальностей и 7 тематических областей. Каждая задача включает в себя репозиторий с кодом и автоматизированное оценочное тестирование, определяющее успех по задаче. Мы также ввели метрику alpha-value, которая оценивает экономическую эффективность решения задачи в сочетании с успехом выполнения и затратами ресурсов. Эта метрика включает в себя успевшую выполненную работу, затраты на выполнение (в токенах) и средние зарплаты разработчиков. Мы выполнили эксперименты, используя три современных фреймворка для решения задач с различными моделями языковых моделей.
## Результаты
Эксперименты показали, что даже самые удачные системы, такие как OpenHands+Claude 3.7, могут решить только 48.15% задач, а остальные 51.85% задач требуют большего внимания к деталям, таким как настройка среды и установка зависимостей. Мы провели анализ ошибок, определив, что более 50% ошибок связаны с этими небольшими, но критичными действиями, которые важны для успешного выполнения задачи. Эти результаты подчеркивают необходимость в развитии более глубокой рабочей модели и увеличении времени отклика.
## Значимость
Помимо того, что GitTaskBench может использоваться для оценки возможностей агентов в решении реальных задач, он также может быть полезен для разработки новых методов, которые могут быть использованы в различных приложениях. Например, он может быть использован для улучшения рабочих процессов, увеличения точности решения задач и уменьшения времени разработки. Мы верим, что данный бенчмарк может способствовать развитию новых технологий, которые могут быть применены в настоящем.
## Выводы
Мы представили GitTaskBench, новый бенчмарк для оценки возможностей решения реальных задач с использованием репозиториев кудавом кода. Мы показали, что данный бенчмарк может быть использован для тестирования и развития новых моделей, которые будут улучшать возможности решения задач в реальном мире. Мы определили некоторые затрудн
Abstract
Beyond scratch coding, exploiting large-scale code repositories (e.g.,
GitHub) for practical tasks is vital in real-world software development, yet
current benchmarks rarely evaluate code agents in such authentic,
workflow-driven scenarios. To bridge this gap, we introduce GitTaskBench, a
benchmark designed to systematically assess this capability via 54 realistic
tasks across 7 modalities and 7 domains. Each task pairs a relevant repository
with an automated, human-curated evaluation harness specifying practical
success criteria. Beyond measuring execution and task success, we also propose
the alpha-value metric to quantify the economic benefit of agent performance,
which integrates task success rates, token cost, and average developer
salaries. Experiments across three state-of-the-art agent frameworks with
multiple advanced LLMs show that leveraging code repositories for complex task
solving remains challenging: even the best-performing system, OpenHands+Claude
3.7, solves only 48.15% of tasks. Error analysis attributes over half of
failures to seemingly mundane yet critical steps like environment setup and
dependency resolution, highlighting the need for more robust workflow
management and increased timeout preparedness. By releasing GitTaskBench, we
aim to drive progress and attention toward repository-aware code reasoning,
execution, and deployment -- moving agents closer to solving complex,
end-to-end real-world tasks. The benchmark and code are open-sourced at
https://github.com/QuantaAlpha/GitTaskBench.
Ссылки и действия
Дополнительные ресурсы: