Monitoring Machine Learning Systems: A Multivocal Literature Review

2509.14294v1 cs.SE, cs.LG 2025-09-20
Авторы:

Hira Naveed, Scott Barnett, Chetan Arora, John Grundy, Hourieh Khalajzadeh, Omar Haggag

Резюме на русском

## Контекст Мониторинг машинного обучения (ML) в динамичных производственных средах является ключевым аспектом для обеспечения надежности и качества моделей ML. Несмотря на то, что ML решения позволяют автоматизировать и улучшать многие процессы, неожиданные изменения в данных или операционных условиях могут привести к ухудшению производительности моделей. Это может привести к потере доверия пользователей и негативным последствиям для организаций. Мониторинг помогает обнаружить и устранить такие проблемы в ранней стадии, снижая риск их развития. Однако существуют различия в подходах к мониторингу, а также проблемы в текущих решениях. Уточнение мотивации, целей и сферы применения мониторинга помогает создать более точный пакет мер, способствующих повышению надежности и эффективности ML-систем. ## Метод Мы провели многоголосую литературную рецензию (MLR), основываясь на руководстве Garousi. Мы проанализировали 136 статей, раскрыв четыре ключевых области: (1) мотивации, целей и контекста мониторинга ML, (2) мониторинга технических аспектов, метрик и инструментов, (3) вклад и пользу, (4) текущие ограничения. Мы также привлекли сведения из серой литературы (серых публикаций), которая часто не учитывается в классических литературных обзорах. Это позволило нам увидеть сходства и разрывы между формальными и неформальными источниками. ## Результаты Мы получили подробную визуализацию текущих направлений в мониторинге ML, выделив стандартные методы, новые подходы и проблемы. Мы сосредоточились на определении мотиваций и целей мониторинга, определили самые часто используемые техники и метрики, а также выявили слабые места в нынешних решениях. Многоголосая литературная рецензия позволила обнаружить общие стратегии и различия в работах, что улучшило понимание современных подходов и недостатков в области мониторинга ML. ## Значимость Мониторинг ML может применяться в различных сферах, включая финансы, здравоохранение, переподготовку моделей и т. д., где надежность и качество выводов ML-систем критически важны. Наше исследование предоставляет базу для выбора наиболее подходящих технологий и инструментов для мониторинга, а также подчеркивает недостатки нынешних подходов. Это означает, что наши рекомендации могут влиять на развитие будущих инструментов и методов мониторинга, повышая уровень надежности и эффективности ML-систем. ## Выводы Мы изучили текущие методы мониторинга ML и выделили главные направления для будущих исследований. Основные достижения включают уточнение мотиваций, определение распространенных и новых подхо

Abstract

Context: Dynamic production environments make it challenging to maintain reliable machine learning (ML) systems. Runtime issues, such as changes in data patterns or operating contexts, that degrade model performance are a common occurrence in production settings. Monitoring enables early detection and mitigation of these runtime issues, helping maintain users' trust and prevent unwanted consequences for organizations. Aim: This study aims to provide a comprehensive overview of the ML monitoring literature. Method: We conducted a multivocal literature review (MLR) following the well established guidelines by Garousi to investigate various aspects of ML monitoring approaches in 136 papers. Results: We analyzed selected studies based on four key areas: (1) the motivations, goals, and context; (2) the monitored aspects, specific techniques, metrics, and tools; (3) the contributions and benefits; and (4) the current limitations. We also discuss several insights found in the studies, their implications, and recommendations for future research and practice. Conclusion: Our MLR identifies and summarizes ML monitoring practices and gaps, emphasizing similarities and disconnects between formal and gray literature. Our study is valuable for both academics and practitioners, as it helps select appropriate solutions, highlights limitations in current approaches, and provides future directions for research and tool development.

Ссылки и действия