RepoDebug: Repository-Level Multi-Task and Multi-Language Debugging Evaluation of Large Language Models

2509.04078v2 cs.SE, cs.AI 2025-09-09

Авторы:

Jingjing Liu, Zeming Liu, Zihao Cheng, Mengliang He, Xiaoming Shi, Yuhang Guo, Xiangrong Zhu, Yuanfang Guo, Yunhong Wang, Haifeng Wang

Резюме на русском

## Контекст Large Language Models (LLMs) значительно улучшили свои возможности в области кодовой отладки, особенно в автоматическом исправлении программных ошибок, что может значительно снизить время, потраченное разработчиками на данную задачу, и улучшить их эффективность. Однако, существующие датасеты для отладки кода сконцентрированы на функциональном уровне и не учитывают более сложные и реалистичные репозиторий-уровневые сценарии, что порождает неполное понимание проблем, с которыми LLMs сталкиваются при отладке репозиториев. Многие репозиторий-уровневые датасеты также ограничены в разнообразии задач, языков программирования и типов ошибок. Данная работа предлагает RepoDebug — набор данных репозиторий-уровневой отладки, охватывающий 22 вида ошибок, 8 языков программирования и 3 типа отладочных задач. ## Метод RepoDebug использует репозиторий-уровневую модель отладки, охватывающую 22 видов ошибок, 8 языков программирования и 3 типа отладочных задач. Набор данных построен таким образом, чтобы охватить широкий спектр сценариев отладки, которые часто встречаются в реальной разработке. Он включает в себя три типа отладки: точечное исправление, локализацию ошибок, и оптимизацию кода. Эти задачи были определены таким образом, чтобы полностью имитировать реальные условия отладки в репозитории. ## Результаты Эксперименты проводились на 10 различных LLM, включая Claude 3.5. Оценка производительности показала, что хотя Claude 3.5 обеспечил наилучший результат среди LLMs в репозиторий-уровневой отладке, он все еще сталкивается с значительными проблемами в решении реалистичных задач debugging. Однако наилучшие результаты получены на задачах локализации ошибок и простых видах точечного исправления. ## Значимость RepoDebug может стать важной ресурсом для повышения качества и эффективности отладки LLMs, а также для широкого спектра применений в крупномасштабной программной разработке. Он предоставляет уникальное решение для преодоления текущих ограничений в существующих датасетах, обеспечивая более реалистичные и разнообразные сценарии отладки. ## Выводы Итоги исследований подтверждают, что хотя Claude 3.5 оказался лучшей LLM в репозиторий-уровневой отладке, он все же сталкивается с значительными проблемами в решении реальных задач. Будущие исследования будут ориентированы на улучшение LLM в реалистичных, многозадачных сценариях отладки, чтобы повысить их эффективность в реальных условиях разработки.

Abstract

Large Language Models (LLMs) have exhibited significant proficiency in code debugging, especially in automatic program repair, which may substantially reduce the time consumption of developers and enhance their efficiency. Significant advancements in debugging datasets have been made to promote the development of code debugging. However, these datasets primarily focus on assessing the LLM's function-level code repair capabilities, neglecting the more complex and realistic repository-level scenarios, which leads to an incomplete understanding of the LLM's challenges in repository-level debugging. While several repository-level datasets have been proposed, they often suffer from limitations such as limited diversity of tasks, languages, and error types. To mitigate this challenge, this paper introduces RepoDebug, a multi-task and multi-language repository-level code debugging dataset with 22 subtypes of errors that supports 8 commonly used programming languages and 3 debugging tasks. Furthermore, we conduct evaluation experiments on 10 LLMs, where Claude 3.5 Sonnect, the best-performing model, still cannot perform well in repository-level debugging.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

RepoDebug: Repository-Level Multi-Task and Multi-Language Debugging Evaluation of Large Language Models

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Automating Complex Document Workflows via Stepwise and Rollback-Enabled Operatio...

Quantitative Analysis of Technical Debt and Pattern Violation in Large Language ...

MANTRA: a Framework for Multi-stage Adaptive Noise TReAtment During Training

Beyond Greenfield: The D3 Framework for AI-Driven Productivity in Brownfield Eng...

LLM-as-a-Judge for Scalable Test Coverage Evaluation: Accuracy, Operational Reli...

Навигация