Previously on... Automating Code Review

2508.18003v1 cs.SE, cs.AI 2025-08-27

Авторы:

Robert Heumüller, Frank Ortmeier

Резюме на русском

## Контекст Modern Code Review (MCR) является ключевым элементом современного программного обеспечения. Он позволяет улучшить качество кода, обнаруживать ошибки и повысить производительность разработки. Однако MCR требует значительных вложений времени и ресурсов, что может быть проблемой для больших проектов. В последние годы возникло возросшее интерес к автоматизации центральных задач MCR с помощью машинного обучения (ML) и глубокого обучения (DL). Однако существует значительная разнообразие в задачах, данных и оценках, что сделало этот раздел неполностью охваченным. Наша цель заключается в построении полного обзора исследований в этой области, чтобы определить проблемы, сформулировать рекомендации и помочь улучшить эффективность и стандартизацию. ## Метод Мы провели поиск и анализ 691 публикаций, связанных с автоматизацией MCR, извлекшие 24 релевантных исследования. Для каждого исследования были проанализированы задачи, модели, метрики, базовые значения, результаты, проблемы достоверности и доступность артефактов. Мы также выявили различия в подходах к определению задач, используемым моделям и метрикам, а также выявили недостатки в стандартизации и реинтеграции данных. Это позволило нам выделить основные сложности и предложить рекомендации для повышения эффективности и репликации исследований. ## Результаты Мы обнаружили, что 22 из 48 комбинаций метрик, использованных для оценки моделей, были уникальны для исходных работ. Также обнаружено, что данные, использованные в различных исследованиях, редко реинтегрированы или повторно использованы, что существенно ограничивает возможность сравнения результатов. Было выявлено, что ряд сложностей, таких как временная биаса, редко обсуждаются. Мы также выделили ряд рекомендаций по стандартизации, включая подходы к оценке, определение задач и использование данных. ## Значимость Наши результаты имеют широкое применение в области автоматизации MCR. Они помогают улучшить стандартизацию, уменьшить количество ошибок, повысить эффективность и повысить качество кода. Кроме того, рекомендации могут помочь исследователям избежать распространенных сложностей и создать более гибкие и реплицируемые модели. Наше исследование также открывает новые направления для будущих исследований, в том числе расширения данных, улучшение метрик и объединение различных подходов. ## Выводы Мы представили подробный обзор исследований в области автоматизации MCR, выявили проблемы и предложили рекомендации для улучшения. Наши полученные результаты могут способствовать улучшению стандартов, эффективности и качества кода в программной инженерии. Мы также

Abstract

Modern Code Review (MCR) is a standard practice in software engineering, yet it demands substantial time and resource investments. Recent research has increasingly explored automating core review tasks using machine learning (ML) and deep learning (DL). As a result, there is substantial variability in task definitions, datasets, and evaluation procedures. This study provides the first comprehensive analysis of MCR automation research, aiming to characterize the field's evolution, formalize learning tasks, highlight methodological challenges, and offer actionable recommendations to guide future research. Focusing on the primary code review tasks, we systematically surveyed 691 publications and identified 24 relevant studies published between May 2015 and April 2024. Each study was analyzed in terms of tasks, models, metrics, baselines, results, validity concerns, and artifact availability. In particular, our analysis reveals significant potential for standardization, including 48 task metric combinations, 22 of which were unique to their original paper, and limited dataset reuse. We highlight challenges and derive concrete recommendations for examples such as the temporal bias threat, which are rarely addressed so far. Our work contributes to a clearer overview of the field, supports the framing of new research, helps to avoid pitfalls, and promotes greater standardization in evaluation practices.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Previously on... Automating Code Review

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Automating Complex Document Workflows via Stepwise and Rollback-Enabled Operatio...

Quantitative Analysis of Technical Debt and Pattern Violation in Large Language ...

MANTRA: a Framework for Multi-stage Adaptive Noise TReAtment During Training

Beyond Greenfield: The D3 Framework for AI-Driven Productivity in Brownfield Eng...

LLM-as-a-Judge for Scalable Test Coverage Evaluation: Accuracy, Operational Reli...

Навигация