When Bugs Linger: A Study of Anomalous Resolution Time Outliers and Their Themes

2509.16140v1 cs.SE, cs.LG 2025-09-23
Авторы:

Avinash Patil

Резюме на русском

#### Контекст Отладка и устранение неполадок в программном обеспечении являются критическими для поддержания его качества и удовлетворения пользователей. Однако некоторые баги (bug reports), называемые "ангар-баги", имеют необычно долгий поток устранения неполадок. Это может указывать на проблемы в процессе разработки или сложности в устранении данных неполадок. Целью данного исследования является анализ этих выбросов в резолюционном времени (resolution time) и их тематического анализа. #### Метод Для определения выбросов в резолюционном времени были применены статистические методы, включая Z-score и Interquartile Range (IQR). Для выделения тематики багов были использованы алгоритмы TF-IDF (Term Frequency-Inverse Document Frequency) для извлечения текстовых признаков и KMeans кластеризации для группировки похожих описаний багов. Исследование проводилось на данных семи открытых проектов: Cassandra, Firefox, Hadoop, HBase, SeaMonkey, Spark и Thunderbird. #### Результаты Обнаружены значительные выбросы в резолюционном времени, которые сгруппированы вокруг тем, таких как проблемы с тестами (test failures), запросы на улучшение (enhancement requests) и проблемы с пользовательским интерфейсом (user interface issues). Эти темы повторяются во всех проектах, что указывает на общие проблемы в процессе разработки. Результаты показывают, что факторы, такие как сложность бага и его уровень критичности, влияют на долгое резолюционное время. #### Значимость Результаты данного исследования могут быть применены во многих областях, например, для улучшения процессов управления проектами, построения эффективных трекеров багов и уменьшения времени резолюции "ангар-багов". Этот подход позволяет проекту разработчикам сфокусироваться на самых важных проблемах и эффективно управлять ресурсами. #### Выводы Исследование выделило значительные выбросы в резолюционном времени, связанные с конкретными темами, такими как тестирование, улучшения и проблемы с пользовательским интерфейсом. Будущие исследования будут направлены на более глубокий анализ этих тем и разработку конкретных стратегий для устранения этих проблем. Это может привести к улучшению процессов разработки и увеличению качества программного обеспечения.

Abstract

Efficient bug resolution is critical for maintaining software quality and user satisfaction. However, specific bug reports experience unusually long resolution times, which may indicate underlying process inefficiencies or complex issues. This study presents a comprehensive analysis of bug resolution anomalies across seven prominent open-source repositories: Cassandra, Firefox, Hadoop, HBase, SeaMonkey, Spark, and Thunderbird. Utilizing statistical methods such as Z-score and Interquartile Range (IQR), we identify anomalies in bug resolution durations. To understand the thematic nature of these anomalies, we apply Term Frequency-Inverse Document Frequency (TF-IDF) for textual feature extraction and KMeans clustering to group similar bug summaries. Our findings reveal consistent patterns across projects, with anomalies often clustering around test failures, enhancement requests, and user interface issues. This approach provides actionable insights for project maintainers to prioritize and effectively address long-standing bugs.

Ссылки и действия