Авторы:
Jane Luo, Xin Zhang, Steven Liu, Jie Wu, Yiming Huang, Yangyu Huang, Chengyu Yin, Ying Xin, Jianfeng Liu, Yuefeng Zhan, Hao Sun, Qi Chen, Scarlett Li, Mao Yang
## Контекст
Развитие бо LARGE LANGUAGE MODELS (LLMs) в области программирования позволило эффективно решать задачи по функциональному и файловому уровню генерации кода. Однако создание полных репозиториев с нуля остается значительной проблемой. Этот процесс требует согласованного планирования на разных уровнях — предложении и реализации — в том числе с поддержкой сложных зависимостей, структур файлов и потоков данных. Недостаток естественных языков в терминах точности и сокращенности при представлении таких сложностей становится ключевой проблемой. Таким образом, вводится **Repository Planning Graph (RPG)** — универсальное, структурированное знание, которое соединяет планирование на уровне предложений и реализации в единой структуре. RPG предоставляет конкретное представление возможностей, структуры файлов, потоков данных и функций, позволяя улучшить планирование на долгосрочной основе и упростить генерацию репозиториев на большом масштабе.
## Метод
RPG представляет собой улучшенное представление, которое построено на основе графов и использует экспериментальную модель для генерации репозитория. Метод строится на трех основных этапах: (1) **планирование на уровне предложений**, где RPG генерирует основу для инициализации репозитория, (2) **рефинирование на уровне реализации**, которое детализирует интерфейсы и функции, и (3) **графово-ориентированная генерация кода** с валидацией тестов. Это позволяет RPG выстроить связи между различными компонентами репозитория и обеспечить точную генерацию. Особенностью этого подхода является использование графа как основного средства планирования и контроля качества генерируемого кода.
## Результаты
На основе RPG разработана модель **ZeroRepo**, которая успешно реализует подход к генерации репозиториев. В ходе экспериментов был создан и использован RepoCraft — бенчмарк, содержащий 1,052 задач для генерации репозиториев на основе реальных проектов. ZeroRepo показала следующие результаты: (1) **высокий уровень функционального покрытия** — 81.5%, (2) **высокая проходимость тестов** — 69.7%, (3) **сильное увеличение генерируемого кода** — 36K Code Lines, что примерно 3.9$\times$ выше сильнейшего базлайна (Claude Code) и 64$\times$ выше других моделей. Эти результаты подтверждают эффективность RPG в управлении сложными зависимостями и улучшении понимания LLMs в процессе генерации.
## Значимость
ZeroRepo и RPG демонстрируют перспективу в области генерации репозиториев на большом масштабе. Они могут использоваться в различных сферах, включая **программное обеспечение с открытым кодом**, **создание корпорати
Annotation:
Large language models excel at function- and file-level code generation, yet
generating complete repositories from scratch remains a fundamental challenge.
This process demands coherent and reliable planning across proposal- and
implementation-level stages, while natural language, due to its ambiguity and
verbosity, is ill-suited for faithfully representing complex software
structures. To address this, we introduce the Repository Planning Graph (RPG),
a persistent representation that unifies pro...
ID: 2509.16198v2
cs.CL, cs.AI, cs.SE