Code Review Without Borders: Evaluating Synthetic vs. Real Data for Review Recommendation

2509.04810v1 cs.SE, cs.CL, cs.LG 2025-09-09
Авторы:

Yogev Cohen, Dudi Ohayon, Romy Somkin, Yehudit Aperstein, Alexander Apartsin

Резюме на русском

## Контекст Современные рабочие процессы разработки программного обеспечения требуют автоматизации решений о том, какие изменения кода требуют ручного кодарьма. Эта задача критична для обеспечения качества программного обеспечения и эффективности разработки. Однако возникают сложности в обучении моделей классификации кода: новые программинные языки и фреймворки создают кратковременный барьер, так как объемы аннотированных данных для тренировки моделей остаются недостаточными. Мы признаем, что Large Language Models (LLMs) могут использоваться для генерации синтетических данных для обучения моделей в тех случаях, когда наборы данных подписанной тренировки являются недостаточными. Наша мотивация заключается в том, чтобы опробовать эффективность LLMs в создании синтетических примеров для новых языков и фреймворков, где ручное кодарьма и оценка важности изменений все еще требуют развития. ## Метод Мы используем LLMs для перевода изменений кода из языков с большим объемом данных на языки с меньшим объемом данных. Это позволяет генерировать синтетические примеры для обучения моделей. Мы асумуем, что LLMs уже научились распознавать синтаксис и семантику новых языков из неанотированных данных, но не имеют представления о том, какие изменения кода рассматриваются важными для рецензирования. Модели обучаются на синтетических данных, получаемых с помощью LLMs, и их эффективность сравнивается с моделями, обученными на реальных аннотированных данных. Мы проводим эксперименты с несколькими репозиториями GitHub и парами языков, чтобы оценить эффективность синтетического подхода в различных контекстах. ## Результаты Мы проводим эксперименты с несколькими репозиториями GitHub и парами языков, чтобы протестить синтетический подход к обучению моделей классификации. Мы сравниваем результаты моделей, обученных на синтетических данных, с моделями, обученными на реальных данных. Результаты показывают, что синтетические данные, созданные с помощью LLMs, эффективно поддерживают обучение моделей в тех случаях, когда наборы данных подписанной тренировки отсутствуют. Мы отмечаем, что хотя модели, обученные на синтетических данных, не достигают той же точности, что и модели, обученные на реальных данных, они показывают существенные улучшения в сравнении с базовыми методами. ## Значимость Полученные результаты показывают, что LLMs могут быть эффективно использованы для генерации синтетических данных в тех случаях, когда предоставляется мало аннотированных данных. Этот подход может быть применен в сферах, где новые программинные языки и фреймворки появляются быстро, и аннотированные данные для обучения моделей все еще недо

Abstract

Automating the decision of whether a code change requires manual review is vital for maintaining software quality in modern development workflows. However, the emergence of new programming languages and frameworks creates a critical bottleneck: while large volumes of unlabelled code are readily available, there is an insufficient amount of labelled data to train supervised models for review classification. We address this challenge by leveraging Large Language Models (LLMs) to translate code changes from well-resourced languages into equivalent changes in underrepresented or emerging languages, generating synthetic training data where labelled examples are scarce. We assume that although LLMs have learned the syntax and semantics of new languages from available unlabelled code, they have yet to fully grasp which code changes are considered significant or review-worthy within these emerging ecosystems. To overcome this, we use LLMs to generate synthetic change examples and train supervised classifiers on them. We systematically compare the performance of these classifiers against models trained on real labelled data. Our experiments across multiple GitHub repositories and language pairs demonstrate that LLM-generated synthetic data can effectively bootstrap review recommendation systems, narrowing the performance gap even in low-resource settings. This approach provides a scalable pathway to extend automated code review capabilities to rapidly evolving technology stacks, even in the absence of annotated data.

Ссылки и действия