Kimi-Dev: Agentless Training as Skill Prior for SWE-Agents

2509.23045v1 cs.AI, cs.CL, cs.SE 2025-10-01

Авторы:

Zonghan Yang, Shengjie Wang, Kelin Fu, Wenyang He, Weimin Xiong, Yibo Liu, Yibo Miao, Bofei Gao, Yejie Wang, Yingwei Ma, Yanhao Li, Yue Liu, Zhenxing Hu, Kaitai Zhang, Shuyi Wang, Huarong Chen, Flood Sung, Yang Liu, Yang Gao, Zhilin Yang, Tianyu Liu

Резюме на русском

## Контекст Искусственный интеллект (ИИ) применяется в сфере программного обеспечения (Software Engineering, SWE) для упрощения разработки программного обеспечения. Одной из сложных проблем является адаптация генерируемых текстов с помощью трансформеров, которые способны выдавать код или комментарии по запросу. Однако актуальной проблемой является недостаточная точность и понимание контекста в результатах. Большинство существующих моделей тренируются с помощью подходов, требующих синхронного взаимодействия с пользователем, что может ограничить скорость и эффективность разработки. Мотивация заключается в развитии модели, позволяющей отказаться от непосредственного взаимодействия и работать на основе готовых данных, при этом достигая высокой эффективности в обработке кода. ## Метод Методология основывается на подходе к обучению моделей без необходимости их интеграции в процесс разработки. Это достигается путем подготовки ранее выполненных задач и создания скриптов для автоматического выполнения требуемых действий. Основной архитектурой является модель Kimi-Dev, которая обучается на большом количестве данных и использует префиксные температуры, чтобы оптимизировать результаты. Для обеспечения точности используется подход с ограниченным рассмотрением фактов (Limited Fact Retrieval, LFR). Это позволяет модели быстрее адаптироваться к новым задачам и уменьшает вероятность ошибок. ## Результаты В ходе экспериментов был проведен сравнительный анализ модели Kimi-Dev с другими моделями в рамках бенчмарка SWE-bench. На основе результатов методика Agentless Training показала себя как наиболее эффективная, достигая 60.4% верификации. Далее, при внедрении дополнительных адаптивных тренировок на основе 5000 публично доступных траекторий, модель достигла 48.6% pass@1, приближаясь к результатам моделей с агентным подходом. Эти результаты доказывают значительную эффективность Agentless-подхода в создании трансферабельных моделей для кодирования. ## Значимость Результаты модели Kimi-Dev открывают новые горизонты для использования ИИ в сфере программного обеспечения. Она демонстрирует устойчивость в различных сценариях, включая автоматизацию процессов разработки и помощь разработчикам. Особенно применимость к задачам, требующим высокой точности и быстрого выполнения. Благодаря этому, модель может значительно увеличить производительность и эффективность разработки программного обеспечения. ## Выводы Модель Kimi-Dev доказала свою эффективность в создании трансферабельных моделей для кодирования, благодаря своей уникальной архитектуре и методике Agentless Training. В будущем будут проводи

Abstract

Large Language Models (LLMs) are increasingly applied to software engineering (SWE), with SWE-bench as a key benchmark. Solutions are split into SWE-Agent frameworks with multi-turn interactions and workflow-based Agentless methods with single-turn verifiable steps. We argue these paradigms are not mutually exclusive: reasoning-intensive Agentless training induces skill priors, including localization, code edit, and self-reflection that enable efficient and effective SWE-Agent adaptation. In this work, we first curate the Agentless training recipe and present Kimi-Dev, an open-source SWE LLM achieving 60.4\% on SWE-bench Verified, the best among workflow approaches. With additional SFT adaptation on 5k publicly-available trajectories, Kimi-Dev powers SWE-Agents to 48.6\% pass@1, on par with that of Claude 3.5 Sonnet (241022 version). These results show that structured skill priors from Agentless training can bridge workflow and agentic frameworks for transferable coding agents.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Kimi-Dev: Agentless Training as Skill Prior for SWE-Agents

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Dual-Process Scaffold Reasoning for Enhancing LLM Code Debugging

Do Code Models Suffer from the Dunning-Kruger Effect?

Навигация