TriagerX: Dual Transformers for Bug Triaging Tasks with Content and Interaction Based Rankings
2508.16860v1
cs.SE, cs.AI, cs.LG
2025-08-27
Авторы:
Md Afif Al Mamun, Gias Uddin, Lan Xia, Longyu Zhang
Резюме на русском
#### Контекст
Bug triaging — это процесс автоматического назначения багов разработчикам, который играет ключевую роль в улучшении эффективности разработки программного обеспечения. Одной из главных проблем этой области является необходимость сочетать два аспекта: оценку токенов в баг-репорте (content-based ranking) и учет истории взаимодействий разработчиков с похожими багами (interaction-based ranking). Недостаточное учетие данных аспектов может приводить к неточным рекомендациям. Данная статья рассматривает ряд технических ограничений, связанных с этими проблемами, и стремится предоставить более точные и эффективные методы по автоматизации bug triaging.
#### Метод
TriagerX — это двухступенчатая модель, основанная на предобученных трансформерах, которая улучшает bug triaging за счет учета обоих аспектов: семантического анализа баг-репорта и истории взаимодействий разработчиков. Модель состоит из двух параллельных трансформеров, каждый из которых выводит рекомендации на основе последних трех слоёв. Таким образом, TriagerX формирует две независимые рекомендации, которые далее объединяются в один рейтинг. Для улучшения рейтинга включен процесс interaction-based ranking, который учитывает историю разработчиков в обработке похожих багов. Эта модель позволяет более точно определить как семантические особенности бага, так и приоритеты в работе разработчиков.
#### Результаты
Данная модель была проверена на пяти разных наборах данных, сравниваясь с девятью предыдущими transformer-based моделями. Результаты показывают, что TriagerX превышает текущие лидеры в своей области не только в точности рекомендаций (Top-1 и Top-3), но и в общей эффективности работы в различных условиях. Например, в случае компонентной рекомендации для компании-партнера, TriagerX увеличил точность рекомендации до 54%, а в случае рекомендации разработчиков — до 10%.
#### Значимость
TriagerX может быть применена в среде разработки для улучшения эффективности bug triaging, снижения времени до корректировки ошибок, и улучшения общей производительности. Особенно полезна модель при работе с большими командами, где наличие истории взаимодействий может отличаться в зависимости от ситуации. Также TriagerX может использоваться в ситуациях смены разработчиков или реорганизации команд, где компоненты и разработчики играют важную роль в адаптации нового состава.
#### Выводы
TriagerX демонстрирует новую мощь двухступенчатых трансформеров в bug triaging за счет лучшего охвата токенов и учета истории взаимодействий. Результаты экспериментов подтверждают, что модель значительно улучшает точность рекомендаций в различных условиях. Будущие исследования будут сконц
Abstract
Pretrained Language Models or PLMs are transformer-based architectures that
can be used in bug triaging tasks. PLMs can better capture token semantics than
traditional Machine Learning (ML) models that rely on statistical features
(e.g., TF-IDF, bag of words). However, PLMs may still attend to less relevant
tokens in a bug report, which can impact their effectiveness. In addition, the
model can be sub-optimal with its recommendations when the interaction history
of developers around similar bugs is not taken into account. We designed
TriagerX to address these limitations. First, to assess token semantics more
reliably, we leverage a dual-transformer architecture. Unlike current
state-of-the-art (SOTA) baselines that employ a single transformer
architecture, TriagerX collects recommendations from two transformers with each
offering recommendations via its last three layers. This setup generates a
robust content-based ranking of candidate developers. TriagerX then refines
this ranking by employing a novel interaction-based ranking methodology, which
considers developers' historical interactions with similar fixed bugs. Across
five datasets, TriagerX surpasses all nine transformer-based methods, including
SOTA baselines, often improving Top-1 and Top-3 developer recommendation
accuracy by over 10%. We worked with our large industry partner to successfully
deploy TriagerX in their development environment. The partner required both
developer and component recommendations, with components acting as proxies for
team assignments-particularly useful in cases of developer turnover or team
changes. We trained TriagerX on the partner's dataset for both tasks, and it
outperformed SOTA baselines by up to 10% for component recommendations and 54%
for developer recommendations.
Ссылки и действия
Дополнительные ресурсы: