When Bugs Linger: A Study of Anomalous Resolution Time Outliers and Their Themes
2509.16140v1
cs.SE, cs.LG
2025-09-23
Авторы:
Avinash Patil
Резюме на русском
#### Контекст
Отладка и устранение неполадок в программном обеспечении являются критическими для поддержания его качества и удовлетворения пользователей. Однако некоторые баги (bug reports), называемые "ангар-баги", имеют необычно долгий поток устранения неполадок. Это может указывать на проблемы в процессе разработки или сложности в устранении данных неполадок. Целью данного исследования является анализ этих выбросов в резолюционном времени (resolution time) и их тематического анализа.
#### Метод
Для определения выбросов в резолюционном времени были применены статистические методы, включая Z-score и Interquartile Range (IQR). Для выделения тематики багов были использованы алгоритмы TF-IDF (Term Frequency-Inverse Document Frequency) для извлечения текстовых признаков и KMeans кластеризации для группировки похожих описаний багов. Исследование проводилось на данных семи открытых проектов: Cassandra, Firefox, Hadoop, HBase, SeaMonkey, Spark и Thunderbird.
#### Результаты
Обнаружены значительные выбросы в резолюционном времени, которые сгруппированы вокруг тем, таких как проблемы с тестами (test failures), запросы на улучшение (enhancement requests) и проблемы с пользовательским интерфейсом (user interface issues). Эти темы повторяются во всех проектах, что указывает на общие проблемы в процессе разработки. Результаты показывают, что факторы, такие как сложность бага и его уровень критичности, влияют на долгое резолюционное время.
#### Значимость
Результаты данного исследования могут быть применены во многих областях, например, для улучшения процессов управления проектами, построения эффективных трекеров багов и уменьшения времени резолюции "ангар-багов". Этот подход позволяет проекту разработчикам сфокусироваться на самых важных проблемах и эффективно управлять ресурсами.
#### Выводы
Исследование выделило значительные выбросы в резолюционном времени, связанные с конкретными темами, такими как тестирование, улучшения и проблемы с пользовательским интерфейсом. Будущие исследования будут направлены на более глубокий анализ этих тем и разработку конкретных стратегий для устранения этих проблем. Это может привести к улучшению процессов разработки и увеличению качества программного обеспечения.
Abstract
Efficient bug resolution is critical for maintaining software quality and
user satisfaction. However, specific bug reports experience unusually long
resolution times, which may indicate underlying process inefficiencies or
complex issues. This study presents a comprehensive analysis of bug resolution
anomalies across seven prominent open-source repositories: Cassandra, Firefox,
Hadoop, HBase, SeaMonkey, Spark, and Thunderbird. Utilizing statistical methods
such as Z-score and Interquartile Range (IQR), we identify anomalies in bug
resolution durations. To understand the thematic nature of these anomalies, we
apply Term Frequency-Inverse Document Frequency (TF-IDF) for textual feature
extraction and KMeans clustering to group similar bug summaries. Our findings
reveal consistent patterns across projects, with anomalies often clustering
around test failures, enhancement requests, and user interface issues. This
approach provides actionable insights for project maintainers to prioritize and
effectively address long-standing bugs.
Ссылки и действия
Дополнительные ресурсы: