Code Review Without Borders: Evaluating Synthetic vs. Real Data for Review Recommendation
2509.04810v1
cs.SE, cs.CL, cs.LG
2025-09-09
Авторы:
Yogev Cohen, Dudi Ohayon, Romy Somkin, Yehudit Aperstein, Alexander Apartsin
Резюме на русском
## Контекст
Современные рабочие процессы разработки программного обеспечения требуют автоматизации решений о том, какие изменения кода требуют ручного кодарьма. Эта задача критична для обеспечения качества программного обеспечения и эффективности разработки. Однако возникают сложности в обучении моделей классификации кода: новые программинные языки и фреймворки создают кратковременный барьер, так как объемы аннотированных данных для тренировки моделей остаются недостаточными. Мы признаем, что Large Language Models (LLMs) могут использоваться для генерации синтетических данных для обучения моделей в тех случаях, когда наборы данных подписанной тренировки являются недостаточными. Наша мотивация заключается в том, чтобы опробовать эффективность LLMs в создании синтетических примеров для новых языков и фреймворков, где ручное кодарьма и оценка важности изменений все еще требуют развития.
## Метод
Мы используем LLMs для перевода изменений кода из языков с большим объемом данных на языки с меньшим объемом данных. Это позволяет генерировать синтетические примеры для обучения моделей. Мы асумуем, что LLMs уже научились распознавать синтаксис и семантику новых языков из неанотированных данных, но не имеют представления о том, какие изменения кода рассматриваются важными для рецензирования. Модели обучаются на синтетических данных, получаемых с помощью LLMs, и их эффективность сравнивается с моделями, обученными на реальных аннотированных данных. Мы проводим эксперименты с несколькими репозиториями GitHub и парами языков, чтобы оценить эффективность синтетического подхода в различных контекстах.
## Результаты
Мы проводим эксперименты с несколькими репозиториями GitHub и парами языков, чтобы протестить синтетический подход к обучению моделей классификации. Мы сравниваем результаты моделей, обученных на синтетических данных, с моделями, обученными на реальных данных. Результаты показывают, что синтетические данные, созданные с помощью LLMs, эффективно поддерживают обучение моделей в тех случаях, когда наборы данных подписанной тренировки отсутствуют. Мы отмечаем, что хотя модели, обученные на синтетических данных, не достигают той же точности, что и модели, обученные на реальных данных, они показывают существенные улучшения в сравнении с базовыми методами.
## Значимость
Полученные результаты показывают, что LLMs могут быть эффективно использованы для генерации синтетических данных в тех случаях, когда предоставляется мало аннотированных данных. Этот подход может быть применен в сферах, где новые программинные языки и фреймворки появляются быстро, и аннотированные данные для обучения моделей все еще недо
Abstract
Automating the decision of whether a code change requires manual review is
vital for maintaining software quality in modern development workflows.
However, the emergence of new programming languages and frameworks creates a
critical bottleneck: while large volumes of unlabelled code are readily
available, there is an insufficient amount of labelled data to train supervised
models for review classification. We address this challenge by leveraging Large
Language Models (LLMs) to translate code changes from well-resourced languages
into equivalent changes in underrepresented or emerging languages, generating
synthetic training data where labelled examples are scarce. We assume that
although LLMs have learned the syntax and semantics of new languages from
available unlabelled code, they have yet to fully grasp which code changes are
considered significant or review-worthy within these emerging ecosystems. To
overcome this, we use LLMs to generate synthetic change examples and train
supervised classifiers on them. We systematically compare the performance of
these classifiers against models trained on real labelled data. Our experiments
across multiple GitHub repositories and language pairs demonstrate that
LLM-generated synthetic data can effectively bootstrap review recommendation
systems, narrowing the performance gap even in low-resource settings. This
approach provides a scalable pathway to extend automated code review
capabilities to rapidly evolving technology stacks, even in the absence of
annotated data.
Ссылки и действия
Дополнительные ресурсы: