RepoDebug: Repository-Level Multi-Task and Multi-Language Debugging Evaluation of Large Language Models
2509.04078v2
cs.SE, cs.AI
2025-09-09
Авторы:
Jingjing Liu, Zeming Liu, Zihao Cheng, Mengliang He, Xiaoming Shi, Yuhang Guo, Xiangrong Zhu, Yuanfang Guo, Yunhong Wang, Haifeng Wang
Резюме на русском
## Контекст
Large Language Models (LLMs) значительно улучшили свои возможности в области кодовой отладки, особенно в автоматическом исправлении программных ошибок, что может значительно снизить время, потраченное разработчиками на данную задачу, и улучшить их эффективность. Однако, существующие датасеты для отладки кода сконцентрированы на функциональном уровне и не учитывают более сложные и реалистичные репозиторий-уровневые сценарии, что порождает неполное понимание проблем, с которыми LLMs сталкиваются при отладке репозиториев. Многие репозиторий-уровневые датасеты также ограничены в разнообразии задач, языков программирования и типов ошибок. Данная работа предлагает RepoDebug — набор данных репозиторий-уровневой отладки, охватывающий 22 вида ошибок, 8 языков программирования и 3 типа отладочных задач.
## Метод
RepoDebug использует репозиторий-уровневую модель отладки, охватывающую 22 видов ошибок, 8 языков программирования и 3 типа отладочных задач. Набор данных построен таким образом, чтобы охватить широкий спектр сценариев отладки, которые часто встречаются в реальной разработке. Он включает в себя три типа отладки: точечное исправление, локализацию ошибок, и оптимизацию кода. Эти задачи были определены таким образом, чтобы полностью имитировать реальные условия отладки в репозитории.
## Результаты
Эксперименты проводились на 10 различных LLM, включая Claude 3.5. Оценка производительности показала, что хотя Claude 3.5 обеспечил наилучший результат среди LLMs в репозиторий-уровневой отладке, он все еще сталкивается с значительными проблемами в решении реалистичных задач debugging. Однако наилучшие результаты получены на задачах локализации ошибок и простых видах точечного исправления.
## Значимость
RepoDebug может стать важной ресурсом для повышения качества и эффективности отладки LLMs, а также для широкого спектра применений в крупномасштабной программной разработке. Он предоставляет уникальное решение для преодоления текущих ограничений в существующих датасетах, обеспечивая более реалистичные и разнообразные сценарии отладки.
## Выводы
Итоги исследований подтверждают, что хотя Claude 3.5 оказался лучшей LLM в репозиторий-уровневой отладке, он все же сталкивается с значительными проблемами в решении реальных задач. Будущие исследования будут ориентированы на улучшение LLM в реалистичных, многозадачных сценариях отладки, чтобы повысить их эффективность в реальных условиях разработки.
Abstract
Large Language Models (LLMs) have exhibited significant proficiency in code
debugging, especially in automatic program repair, which may substantially
reduce the time consumption of developers and enhance their efficiency.
Significant advancements in debugging datasets have been made to promote the
development of code debugging. However, these datasets primarily focus on
assessing the LLM's function-level code repair capabilities, neglecting the
more complex and realistic repository-level scenarios, which leads to an
incomplete understanding of the LLM's challenges in repository-level debugging.
While several repository-level datasets have been proposed, they often suffer
from limitations such as limited diversity of tasks, languages, and error
types. To mitigate this challenge, this paper introduces RepoDebug, a
multi-task and multi-language repository-level code debugging dataset with 22
subtypes of errors that supports 8 commonly used programming languages and 3
debugging tasks. Furthermore, we conduct evaluation experiments on 10 LLMs,
where Claude 3.5 Sonnect, the best-performing model, still cannot perform well
in repository-level debugging.
Ссылки и действия
Дополнительные ресурсы: