Stack Trace-Based Crash Deduplication with Transformer Adaptation
2508.19449v1
cs.SE, cs.LG
2025-08-30
Авторы:
Md Afif Al Mamun, Gias Uddin, Lan Xia, Longyu Zhang
Резюме на русском
#### Контекст
Стэк-трейс (stack trace) — список вызовов функций в момент сбоя программы — является основополагающим элементом автоматизированных систем отчетации о сбоях в программном обеспечении. Однако значительная доля отчетов о сбоях является дубликатами, что создает значительную нагрузку на разработчиков, затрагивая их время и ресурсы. Традиционные методы дедупликации, основанные на строковой схожести и правилах, не всегда эффективны в учете контекста и структуры стек-трейсов. Это приводит к неэффективности систем отчетации и увеличению сложности масштабирования. Мы предлагаем новую методику, основанную на трансформерах, для эффективной дедупликации стек-трейсов, которая учитывает их глубокую структуру и контекст.
#### Метод
Мы представляем dedupT, новую модель, основанную на трансформерах, для дедупликации стек-трейсов. dedupT использует предобученную модель языковой модели (PLM) для адаптации к стек-трейсам, а затем применяет полносвязную нейронную сеть (Fully Connected Network, FCN) для оценки степени схожести дубликатов. Модель анализирует стек-трейсы целиком, а не как набор отдельных фреймов, что позволяет лучше понять их структуру и контекст. Кроме того, мы используем методы обучения с подкреплением (reinforcement learning) для оптимизации ранжирования дубликатов. Эта архитектура обеспечивает более точное и эффективное определение дубликатов и уникальных сбоев.
#### Результаты
Мы провели эксперименты с четырьмя открытыми наборами данных, сравнив dedupT с традиционными методами (смещенной строковой схожестью, последовательным выравниванием) и другими DL-решениями. dedupT показал значительное улучшение в оценке дубликатов и уникальных сбоев. Мы измерили производительность модели по метрикам Mean Reciprocal Rank (MRR) и Receiver Operating Characteristic Area Under the Curve (ROC-AUC), получив результаты, которые превосходят существующие технологии. dedupT показал увеличение MRR до 15% по сравнению с лучшими DL-методами и до 9% по сравнению с традиционными подходами. Это свидетельствует о том, что dedupT эффективнее в уменьшении числа дубликатов и улучшении работы систем отчетации сбоев.
#### Значимость
Наш подход имеет распространенные применения в автоматизированных системах отчетации и мониторинге программного обеспечения. DedupT может существенно сократить число дубликатов, уменьшить нагрузку на разработчиков и улучшить эффективность систем отслеживания проблем. Благодаря интеграции трансформеров в программное обеспечение, наша работа демонстрирует потенциал новых технологий для улучшения процессов разработки и мониторинга.
#### Выводы
DedupT демонст
Abstract
Automated crash reporting systems generate large volumes of duplicate
reports, overwhelming issue-tracking systems and increasing developer workload.
Traditional stack trace-based deduplication methods, relying on string
similarity, rule-based heuristics, or deep learning (DL) models, often fail to
capture the contextual and structural relationships within stack traces. We
propose dedupT, a transformer-based approach that models stack traces
holistically rather than as isolated frames. dedupT first adapts a pretrained
language model (PLM) to stack traces, then uses its embeddings to train a
fully-connected network (FCN) to rank duplicate crashes effectively. Extensive
experiments on real-world datasets show that dedupT outperforms existing DL and
traditional methods (e.g., sequence alignment and information retrieval
techniques) in both duplicate ranking and unique crash detection, significantly
reducing manual triage effort. On four public datasets, dedupT improves Mean
Reciprocal Rank (MRR) often by over 15% compared to the best DL baseline and up
to 9% over traditional methods while achieving higher Receiver Operating
Characteristic Area Under the Curve (ROC-AUC) in detecting unique crash
reports. Our work advances the integration of modern natural language
processing (NLP) techniques into software engineering, providing an effective
solution for stack trace-based crash deduplication.
Ссылки и действия
Дополнительные ресурсы: