AgentPack: A Dataset of Code Changes, Co-Authored by Agents and Humans

2509.21891v1 cs.SE, cs.CL 2025-09-30
Авторы:

Yangtian Zi, Zixuan Wu, Aleksander Boruch-Gruszecki, Jonathan Bell, Arjun Guha

Резюме на русском

## Контекст На протяжении десятилетий участие автоматизированных систем в процессе разработки программного обеспечения было ограничено ролью помощников. Однако появление продвинутых языковых моделей, таких как Codex, Claude Code и Cursor Agent, изменило это представление. Эти агентские модели могут сотрудничать с эмпирическими разработчиками для генерирования и редактирования кода, улучшая продуктивность и качество кода. Однако существуют проблемы с доступной для обучения лингвистико-технической базой данных. Традиционная аналитика проектирует методы поиска и анализа commits, которые часто оказываются ненадежными из-за ненаблюдаемого контекста, перегруженности информацией и низкого качества. В этом контексте возникает необходимость создания более чистого и репрезентативного исходного кода, который может быть использован для тренировки моделей. ## Метод Методология для создания AgentPack заключается в сборе и предобработке данных из публичных репозиториев GitHub, полученных с использованием средств клонирования и краулинга. Архитектура предлагаемого решения включает в себя два основных этапа: сбор данных и их курирование. Во время сбора данных используется механизм курирования, который отфильтровывает сообщения и изменения, подвергая их различным критериям качества. Эти критерии определяются на основе технических требований, таких как четкость логики, ясность выражения и наличие связанных сценариев. Наконец, AgentPack образует базу данных из 1,3 миллиона кодовых изменений, созданных взаимодействием агентов и разработчиков. ## Результаты В ходе экспериментов был проанализирован 1,3 миллион кодовых изменений, созданных агентами и разработчиками. Было проверено, что изменения, сгенерированные агентами, являются более конкретными и сосредоточенными по сравнению с традиционными commits, сгенерированными разработчиками. На основе AgentPack был проведен файн-тюнинг текущих моделей языкового моделирования, показав, что финальные модели показывают повышение эффективности при редактировании кода. Данные также позволили установить, что совместная работа агентов и разработчиков приводит к более качественным редакциям и улучшенному контексту. ## Значимость AgentPack может быть применен в различных областях, включая обучение самообучающихся моделей, анализ кода, а также разработку новых методов автоматизации процессов разработки. Одним из ключевых преимуществ является улучшение качества и чистоты данных, что исключает многие из ограничений, связанных с традиционными методами. Таким образом, AgentPack может способствовать более точному моделированию целей разработчиков и улучшению технологий, применяемых в глубо

Abstract

Fine-tuning large language models for code editing has typically relied on mining commits and pull requests. The working hypothesis has been that commit messages describe human intent in natural language, and patches to code describe the changes that implement that intent. However, much of the previously collected data is noisy: commit messages are terse, human-written commits commingle several unrelated edits, and many commits come from simple, rule-based bots. The recent adoption of software engineering agents changes this landscape. Code changes co-authored by humans and agents tend to be more narrowly scoped and focused on clearer goals. Their commit messages, generated by LLMs, articulate intent and rationale in much greater detail. Moreover, when these changes land in public repositories, they are implicitly filtered by humans: maintainers discard low-quality commits to their projects. We present AgentPack, a corpus of 1.3M code edits co-authored by Claude Code, OpenAI Codex, and Cursor Agent across public GitHub projects up to mid-August 2025. We describe the identification and curation pipeline, quantify adoption trends of these agents, and analyze the structural properties of the edits. Finally, we show that models fine-tuned on AgentPack can outperform models trained on prior human-only commit corpora, highlighting the potential of using public data from software engineering agents to train future code-editing models.

Ссылки и действия