AgentPack: A Dataset of Code Changes, Co-Authored by Agents and Humans
2509.21891v1
cs.SE, cs.CL
2025-09-30
Авторы:
Yangtian Zi, Zixuan Wu, Aleksander Boruch-Gruszecki, Jonathan Bell, Arjun Guha
Резюме на русском
## Контекст
На протяжении десятилетий участие автоматизированных систем в процессе разработки программного обеспечения было ограничено ролью помощников. Однако появление продвинутых языковых моделей, таких как Codex, Claude Code и Cursor Agent, изменило это представление. Эти агентские модели могут сотрудничать с эмпирическими разработчиками для генерирования и редактирования кода, улучшая продуктивность и качество кода. Однако существуют проблемы с доступной для обучения лингвистико-технической базой данных. Традиционная аналитика проектирует методы поиска и анализа commits, которые часто оказываются ненадежными из-за ненаблюдаемого контекста, перегруженности информацией и низкого качества. В этом контексте возникает необходимость создания более чистого и репрезентативного исходного кода, который может быть использован для тренировки моделей.
## Метод
Методология для создания AgentPack заключается в сборе и предобработке данных из публичных репозиториев GitHub, полученных с использованием средств клонирования и краулинга. Архитектура предлагаемого решения включает в себя два основных этапа: сбор данных и их курирование. Во время сбора данных используется механизм курирования, который отфильтровывает сообщения и изменения, подвергая их различным критериям качества. Эти критерии определяются на основе технических требований, таких как четкость логики, ясность выражения и наличие связанных сценариев. Наконец, AgentPack образует базу данных из 1,3 миллиона кодовых изменений, созданных взаимодействием агентов и разработчиков.
## Результаты
В ходе экспериментов был проанализирован 1,3 миллион кодовых изменений, созданных агентами и разработчиками. Было проверено, что изменения, сгенерированные агентами, являются более конкретными и сосредоточенными по сравнению с традиционными commits, сгенерированными разработчиками. На основе AgentPack был проведен файн-тюнинг текущих моделей языкового моделирования, показав, что финальные модели показывают повышение эффективности при редактировании кода. Данные также позволили установить, что совместная работа агентов и разработчиков приводит к более качественным редакциям и улучшенному контексту.
## Значимость
AgentPack может быть применен в различных областях, включая обучение самообучающихся моделей, анализ кода, а также разработку новых методов автоматизации процессов разработки. Одним из ключевых преимуществ является улучшение качества и чистоты данных, что исключает многие из ограничений, связанных с традиционными методами. Таким образом, AgentPack может способствовать более точному моделированию целей разработчиков и улучшению технологий, применяемых в глубо
Abstract
Fine-tuning large language models for code editing has typically relied on
mining commits and pull requests. The working hypothesis has been that commit
messages describe human intent in natural language, and patches to code
describe the changes that implement that intent. However, much of the
previously collected data is noisy: commit messages are terse, human-written
commits commingle several unrelated edits, and many commits come from simple,
rule-based bots.
The recent adoption of software engineering agents changes this landscape.
Code changes co-authored by humans and agents tend to be more narrowly scoped
and focused on clearer goals. Their commit messages, generated by LLMs,
articulate intent and rationale in much greater detail. Moreover, when these
changes land in public repositories, they are implicitly filtered by humans:
maintainers discard low-quality commits to their projects.
We present AgentPack, a corpus of 1.3M code edits co-authored by Claude Code,
OpenAI Codex, and Cursor Agent across public GitHub projects up to mid-August
2025. We describe the identification and curation pipeline, quantify adoption
trends of these agents, and analyze the structural properties of the edits.
Finally, we show that models fine-tuned on AgentPack can outperform models
trained on prior human-only commit corpora, highlighting the potential of using
public data from software engineering agents to train future code-editing
models.
Ссылки и действия
Дополнительные ресурсы: