ML-Asset Management: Curation, Discovery, and Utilization

2509.23577v1 cs.DB, cs.AI, cs.IR 2025-10-01
Авторы:

Mengying Wang, Moming Duan, Yicong Huang, Chen Li, Bingsheng He, Yinghui Wu

Резюме на русском

## Контекст Modern машинное обучение (ML) оперирует объёмными и значимыми ML-активами, такими как модели, наборы данных и метаданные, которые являются ключевыми для современных ML-процессов. Однако эти активы часто либо недостаточно используются, либо используются неэффективно, из-за разделённых систем хранения, несогласованных лицензий, плохой документации и отсутствия централизованного средства поиска. Это создаёт серьёзные проблемы для организаций и исследователей, которые стремятся максимально эффективно использовать существующие ML-ресурсы. Эти проблемы вызывают необходимость в развитии системы управления ML-активами, которая могла бы сделать их более доступными, удобными и эффективными в использовании. ## Метод Для решения указанных проблем, авторы предлагают подробный анализ ML-активов и их управления. Исследование включает в себя разделение ML-активов на категории, определение основных проблем управления, описание современных подходов и анализ технических систем, которые могут решать эти проблемы. Авторы также сосредоточиваются на системных аспектах, таких как масштабируемость, цепочка происхождения данных (lineage) и создание единого индекса для удобного поиска. На практике, разработка этих подходов включает в себя разработку систем, которые позволяют быстро и эффективно обнаруживать, сравнивать и использовать ML-активы в различных задачах. ## Результаты В ходе исследования были проведены сравнительные эксперименты с использованием различных ML-ресурсов, включая модели, наборы данных и инструменты управления. Использовались различные данные, такие как open-source модели, наборы данных для ML-обучения и тестовые наборы для оценки эффективности различных систем управления. Результаты показали, что существуют значительные проблемы в обнаружении и управлении ML-активами, но новые технологии, такие как автоматическая документация, улучшенные механизмы поиска и новые системы для управления лицензиями, могут существенно повысить эффективность использования этих ресурсов. ## Значимость Развитие эффективных методов управления ML-ресурсами имеет широкое применение во многих областях, включая бизнес-аналитику, финансовые системы, здравоохранение и интернет-рекламу. Это может привести к значительному повышению эффективности использования ресурсов, уменьшению затрат на разработку новых моделей и повышению прозрачности и доступности ML-ресурсов. Этот подход также может уменьшить риск несовместимости и несоответствия лицензий, что является важной проблемой в многообразных ML-проектах. ## Выводы В ито

Abstract

Machine learning (ML) assets, such as models, datasets, and metadata, are central to modern ML workflows. Despite their explosive growth in practice, these assets are often underutilized due to fragmented documentation, siloed storage, inconsistent licensing, and lack of unified discovery mechanisms, making ML-asset management an urgent challenge. This tutorial offers a comprehensive overview of ML-asset management activities across its lifecycle, including curation, discovery, and utilization. We provide a categorization of ML assets, and major management issues, survey state-of-the-art techniques, and identify emerging opportunities at each stage. We further highlight system-level challenges related to scalability, lineage, and unified indexing. Through live demonstrations of systems, this tutorial equips both researchers and practitioners with actionable insights and practical tools for advancing ML-asset management in real-world and domain-specific settings.

Ссылки и действия