LoCoBench: A Benchmark for Long-Context Large Language Models in Complex Software Engineering

2509.09614v1 cs.SE, cs.AI 2025-09-13
Авторы:

Jielin Qiu, Zuxin Liu, Zhiwei Liu, Rithesh Murthy, Jianguo Zhang, Haolin Chen, Shiyu Wang, Ming Zhu, Liangwei Yang, Juntao Tan, Zhepeng Cen, Cheng Qian, Shelby Heinecke, Weiran Yao, Silvio Savarese, Caiming Xiong, Huan Wang

Резюме на русском

## Контекст Современные языковые модели с пониманием контекста (LLMs) показали свою эффективность во многих областях, в том числе и в программировании. Однако, несмотря на их продвижение, остаются существенные проблемы в понимании программного кода на больших контекстах, особенно при выполнении задач, требующих анализа всей системы программного обеспечения. Из-за этого, текущие модели часто не способны обеспечить качественное решение задач, которые требуют понимания больших кодовых баз. Таким образом, возникает необходимость в создании бенчмарка, который бы позволил эффективно оценивать лингвистические модели для работы с такими сложными задачами. ## Метод LoCoBench — это новый бенчмарк, разработанный для оценки лингвистических моделей с поддержкой больших контекстов в средах сложного программного обеспечения. Он предлагает 8 000 сценариев для оценки, охватывающих 10 языков программирования, с длинами контекста от 10 000 до 1 000 000 токенов. Это значительное разнообразие в контексте позволяет оценивать производительность моделей в разных условиях. Бенчмарк охватывает восемь задач, включая архитектурное понимание, разработку с кросс-файловыми изменениями, расследование ошибок, рефакторинг и безопасность. Основной мотивацией является повышение точности оценки моделей в реальных условиях разработки программного обеспечения, где понимание больших кодовых баз имеет ключевое значение. ## Результаты В ходе экспериментов были протестированы несколько современных моделей с поддержкой больших контекстов. Это позволило продемонстрировать значительные различия в их поведении на задачах, требующих понимания больших кодовых баз. Например, модели с меньшим контекстом показали значительную ухудшение качества в случае задач, требующих анализа всей системы. Бенчмарк позволил оценить не только ошибки, но и динамику поведения моделей в задачах, требующих длительного взаимодействия с кодом. Эти результаты подтвердили, что текущие модели до сих пор имеют существенные проблемы с оценкой контекста на большом масштабе. ## Значимость LoCoBench предоставляет новые возможности для точной оценки моделей в сложных сценариях программного обеспечения. Его можно применять в сфере разработки инструментов для кодирования, анализа безопасности и рефакторинга. Бенчмарк также предоставляет новый подход для изучения проблем в понимании языка программирования на больших масштабах. Это может привести к развитию новых моделей и алгоритмов, которые будут более эффективно работать в таких контекстах. Исследования показали, что текущие модели имеют значительные

Abstract

The emergence of long-context language models with context windows extending to millions of tokens has created new opportunities for sophisticated code understanding and software development evaluation. We propose LoCoBench, a comprehensive benchmark specifically designed to evaluate long-context LLMs in realistic, complex software development scenarios. Unlike existing code evaluation benchmarks that focus on single-function completion or short-context tasks, LoCoBench addresses the critical evaluation gap for long-context capabilities that require understanding entire codebases, reasoning across multiple files, and maintaining architectural consistency across large-scale software systems. Our benchmark provides 8,000 evaluation scenarios systematically generated across 10 programming languages, with context lengths spanning 10K to 1M tokens, a 100x variation that enables precise assessment of long-context performance degradation in realistic software development settings. LoCoBench introduces 8 task categories that capture essential long-context capabilities: architectural understanding, cross-file refactoring, multi-session development, bug investigation, feature implementation, code comprehension, integration testing, and security analysis. Through a 5-phase pipeline, we create diverse, high-quality scenarios that challenge LLMs to reason about complex codebases at unprecedented scale. We introduce a comprehensive evaluation framework with 17 metrics across 4 dimensions, including 8 new evaluation metrics, combined in a LoCoBench Score (LCBS). Our evaluation of state-of-the-art long-context models reveals substantial performance gaps, demonstrating that long-context understanding in complex software development represents a significant unsolved challenge that demands more attention. LoCoBench is released at: https://github.com/SalesforceAIResearch/LoCoBench.

Ссылки и действия