BitsAI-Fix: LLM-Driven Approach for Automated Lint Error Resolution in Practice
2508.03487v1
cs.SE, cs.AI, cs.LG
2025-08-06
Авторы:
Yuanpeng Li, Qi Long, Zhiyuan Yao, Jian Xu, Lintao Xie, Xu He, Lu Geng, Xin Han, Yueyan Chen, Wenbo Duan
Резюме на русском
Увеличивающийся объём линтер-ошибок в корпоративных кодовых базах превысил возможности ручного исправления. Авторы предлагают BitsAI-Fix — автоматизированный пайплайн на базе LLM, который с помощью tree-sitter расширяет контекст, генерирует патчи в формате search-and-replace, перезапускает линтер и оставляет только прошедшие проверки изменения. Система обучается прогрессивным RL: на холодном старте формирует верифицируемые примеры, после развёртки собирает онлайн-фидбек по «code diff matching». Целевая функция сочетает корректность, минимальность изменений и правильность формата. В продакшене ByteDance решение обслуживает 5 000 инженеров, разрешило >12 000 ошибок с точностью 85 % и привлекает ~1 000 активных пользователей в неделю, демонстрируя жизнеспособность LLM-подхода для масштабного автоматического ремонта кода.
Abstract
As enterprise codebases continue to grow in scale and complexity, the volume
of lint errors far exceeds engineers' manual remediation capacity, leading to
continuous accumulation of technical debt and hindered development efficiency.
This paper presents BitsAI-Fix, an automated lint error remediation workflow
based on Large Language Models (LLMs), designed to address this critical
challenge in industrial-scale environments. BitsAI-Fix employs tree-sitter for
context expansion and generates search-and-replace format patches through
specially trained LLMs, followed by lint scan re-verification to output final
remediation results. Additionally, our approach introduces an innovative
progressive reinforcement learning (RL) training strategy that can
automatically acquire verifiable training data during the project cold-start
phase and continuously iterate the model by collecting online samples through
feedback after system deployment. Furthermore, we designed a targeted
rule-based reward mechanism that combines format rewards and correctness
rewards while penalizing redundant modifications. We also propose a "code diff
matching" methodology to continuously track online effectiveness. In production
deployment at ByteDance, our solution has supported over 5,000 engineers,
resolved more than 12,000 static analysis issues, achieved approximately 85%
remediation accuracy, with around 1,000 weekly active adopters. This work
demonstrates the practical feasibility of LLM-based code remediation solutions
in enterprise environments and serves as a reference for automated code fix in
large-scale industrial scenarios.
Ссылки и действия
Дополнительные ресурсы: