TriagerX: Dual Transformers for Bug Triaging Tasks with Content and Interaction Based Rankings

2508.16860v1 cs.SE, cs.AI, cs.LG 2025-08-27
Авторы:

Md Afif Al Mamun, Gias Uddin, Lan Xia, Longyu Zhang

Резюме на русском

#### Контекст Bug triaging — это процесс автоматического назначения багов разработчикам, который играет ключевую роль в улучшении эффективности разработки программного обеспечения. Одной из главных проблем этой области является необходимость сочетать два аспекта: оценку токенов в баг-репорте (content-based ranking) и учет истории взаимодействий разработчиков с похожими багами (interaction-based ranking). Недостаточное учетие данных аспектов может приводить к неточным рекомендациям. Данная статья рассматривает ряд технических ограничений, связанных с этими проблемами, и стремится предоставить более точные и эффективные методы по автоматизации bug triaging. #### Метод TriagerX — это двухступенчатая модель, основанная на предобученных трансформерах, которая улучшает bug triaging за счет учета обоих аспектов: семантического анализа баг-репорта и истории взаимодействий разработчиков. Модель состоит из двух параллельных трансформеров, каждый из которых выводит рекомендации на основе последних трех слоёв. Таким образом, TriagerX формирует две независимые рекомендации, которые далее объединяются в один рейтинг. Для улучшения рейтинга включен процесс interaction-based ranking, который учитывает историю разработчиков в обработке похожих багов. Эта модель позволяет более точно определить как семантические особенности бага, так и приоритеты в работе разработчиков. #### Результаты Данная модель была проверена на пяти разных наборах данных, сравниваясь с девятью предыдущими transformer-based моделями. Результаты показывают, что TriagerX превышает текущие лидеры в своей области не только в точности рекомендаций (Top-1 и Top-3), но и в общей эффективности работы в различных условиях. Например, в случае компонентной рекомендации для компании-партнера, TriagerX увеличил точность рекомендации до 54%, а в случае рекомендации разработчиков — до 10%. #### Значимость TriagerX может быть применена в среде разработки для улучшения эффективности bug triaging, снижения времени до корректировки ошибок, и улучшения общей производительности. Особенно полезна модель при работе с большими командами, где наличие истории взаимодействий может отличаться в зависимости от ситуации. Также TriagerX может использоваться в ситуациях смены разработчиков или реорганизации команд, где компоненты и разработчики играют важную роль в адаптации нового состава. #### Выводы TriagerX демонстрирует новую мощь двухступенчатых трансформеров в bug triaging за счет лучшего охвата токенов и учета истории взаимодействий. Результаты экспериментов подтверждают, что модель значительно улучшает точность рекомендаций в различных условиях. Будущие исследования будут сконц

Abstract

Pretrained Language Models or PLMs are transformer-based architectures that can be used in bug triaging tasks. PLMs can better capture token semantics than traditional Machine Learning (ML) models that rely on statistical features (e.g., TF-IDF, bag of words). However, PLMs may still attend to less relevant tokens in a bug report, which can impact their effectiveness. In addition, the model can be sub-optimal with its recommendations when the interaction history of developers around similar bugs is not taken into account. We designed TriagerX to address these limitations. First, to assess token semantics more reliably, we leverage a dual-transformer architecture. Unlike current state-of-the-art (SOTA) baselines that employ a single transformer architecture, TriagerX collects recommendations from two transformers with each offering recommendations via its last three layers. This setup generates a robust content-based ranking of candidate developers. TriagerX then refines this ranking by employing a novel interaction-based ranking methodology, which considers developers' historical interactions with similar fixed bugs. Across five datasets, TriagerX surpasses all nine transformer-based methods, including SOTA baselines, often improving Top-1 and Top-3 developer recommendation accuracy by over 10%. We worked with our large industry partner to successfully deploy TriagerX in their development environment. The partner required both developer and component recommendations, with components acting as proxies for team assignments-particularly useful in cases of developer turnover or team changes. We trained TriagerX on the partner's dataset for both tasks, and it outperformed SOTA baselines by up to 10% for component recommendations and 54% for developer recommendations.

Ссылки и действия