Dynamic Design of Machine Learning Pipelines via Metalearning

2508.13436v1 cs.LG, cs.AI, cs.NE 2025-08-21

Авторы:

Edesio Alcobaça, André C. P. L. F. de Carvalho

Резюме на русском

#### Контекст Современные методы автоматизации машинного обучения (AutoML) позволили существенно сузить пробел между профессиональными и непрофессиональными пользователями в области машинного обучения. Они автоматизируют процессы выбора моделей, оптимизации гиперпараметров и инжиниринга признаков. Однако существуют значительные проблемы, такие как высокая вычислительная стоимость при использовании стандартных стратегий поиска и оптимизации, таких как Random Search, Particle Swarm Optimization и Bayesian Optimization. Эти методы часто требуют огромных ресурсов и могут привести к переобучению, особенно когда AutoML-системы исследуют большой поисковый пространств. Эта ситуация подчеркивает необходимость разработки методов, способных эффективно сузить поисковый пространство и уменьшить вычислительные затраты. #### Метод В данной работе предлагается метод мета-обучения (metalearning) для динамического дизайна поисковых пространств в AutoML-системах. Метод использует исторические знания (metaknowledge), полученные из предыдущих задач, для выбора наиболее перспективных регионов поискового пространства. Это позволяет сузить пространство и ускорить оптимизацию. Метод основывается на мета-функциональной оценке, которая помогает определить ключевые характеристики поисковых пространств. Эта архитектура обеспечивает динамическую адаптацию системы к уникальным характеристикам новых задач. Таким образом, AutoML может эффективно избегать переобучения и сократить вычислительные затраты. #### Результаты В экспериментах проводился сравнительный анализ предлагаемого метода с традиционными подходами, такими как Random Search. На тестовых наборах данных был оценен время выполнения, размер поискового пространства и точность предсказаний. Результаты показали, что предлагаемый метод уменьшил время работы Random Search на 89% и сузил поисковое пространство на 70% для препроцессоров (1.8 из 13) и на 58% для классификаторов (4.3 из 16). Это было достигнуто без значительного снижения качества предсказаний. Эксперименты также показали, что метод может эффективно адаптироваться к системе Auto-Sklearn, сузив поисковое пространство и улучшив производительность. #### Значимость Предложенный метод имеет широкие области применения в автоматизированном машинном обучении, в частности в области динамического оптимизации поисковых пространств. Основные преимущества включают уменьшение вычислительных затрат, уменьшение риска переобучения и улучшение эффективности автоматизированных систем AutoML. В будущем можно рассмотреть расширение метода для работы с более сложными задачами, такими как регрессия и рекомендательные системы. Это может сделать AutoML-системы более доступ

Abstract

Automated machine learning (AutoML) has democratized the design of machine learning based systems, by automating model selection, hyperparameter tuning and feature engineering. However, the high computational cost associated with traditional search and optimization strategies, such as Random Search, Particle Swarm Optimization and Bayesian Optimization, remains a significant challenge. Moreover, AutoML systems typically explore a large search space, which can lead to overfitting. This paper introduces a metalearning method for dynamically designing search spaces for AutoML system. The proposed method uses historical metaknowledge to select promising regions of the search space, accelerating the optimization process. According to experiments conducted for this study, the proposed method can reduce runtime by 89\% in Random Search and search space by (1.8/13 preprocessor and 4.3/16 classifier), without compromising significant predictive performance. Moreover, the proposed method showed competitive performance when adapted to Auto-Sklearn, reducing its search space. Furthermore, this study encompasses insights into meta-feature selection, meta-model explainability, and the trade-offs inherent in search space reduction strategies.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Dynamic Design of Machine Learning Pipelines via Metalearning

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

VS-Graph: Scalable and Efficient Graph Classification Using Hyperdimensional Com...

Pre-train to Gain: Robust Learning Without Clean Labels

Evolved SampleWeights for Bias Mitigation: Effectiveness Depends on Optimization...

DL101 Neural Network Outputs and Loss Functions

Multiscale Astrocyte Network Calcium Dynamics for Biologically Plausible Intelli...

Навигация