Cluster Workload Allocation: A Predictive Approach Leveraging Machine Learning Efficiency
2509.17695v1
cs.LG, cs.AI, cs.DC, cs.SE
2025-09-24
Авторы:
Leszek Sliwko
Резюме на русском
#### Контекст
Масштабная развертываемость кластерных вычисльных систем приводит к сложностям в эффективной аллокации рабочей нагрузки. Одним из ключевых задачей является распределение задач на оптимальные узлы кластера, учитывая ограничения, такие как заданные предпочтения к узлам или их способность выполнять определенные типы работ. Традиционными методами являются ручное распределение или статические алгоритмы, которые не всегда учитывают сложную динамику кластера. Это приводит к потерям в производительности, неэффективном использовании ресурсов и невысоком качестве обслуживания. Мотивация заключается в использовании машинного обучения (ML) для автоматизации рабочей нагрузки и улучшения её эффективности.
#### Метод
Для решения этой проблемы использовано реальные данные кластера Google Cluster Data (GCD). Алгоритмы ML были применены для определения задач, которые могут выполняться только на ограниченном числе узлов (node affinity operators). Предварительная обработка данных включала извлечение атрибутов узлов и ограничений задач, а также их представление с помощью one-hot encoding. Классификаторы, включая Artificial Neural Networks, K-Nearest Neighbours, Decision Trees, Naive Bayes, Ridge Regression, Adaptive Boosting и Bagging, были применены для прогнозирования подходящих узлов для задач. Ансамбль вебесточного классификатора (ensemble voting classifier) был оптимизирован для максимальной точности и F1-меры.
#### Результаты
Проведенные эксперименты показали, что метод эффективно распределяет задачи, используя 10-классовый one-hot encoding для ограничений. ML-алгоритмы показали высокую точность, особенно с Adaptive Boosting и Bagging, которые достигли 98% точности и межклассового ошибки менее 1.8%. Эти результаты были получены на основе реальных треков Google Cluster Data, где задачи распределялись между 12,5 к узлов. Оптимизированные модели показали лучшую производительность по сравнению с традиционными методами, повысив эффективность аллокации рабочей нагрузки.
#### Значимость
Предложенная модель имеет широкий потенциал применения в кластерных вычислениях, в частности, для автоматизации рабочей нагрузки, где существуют ограничения на выполнение задач только на определенных узлах. Метод позволяет уменьшить стоимость обслуживания, увеличить плотность использования ресурсов, и улучшить качество обслуживания. Он также может быть применен в различных сферах, где требуется современный подход к распределенным вычислениям, таких как облачные вычисления и Big Data.
#### Выводы
Результаты исследования показали, что ML-алгоритмы эффективно решают задачи рабочей нагрузки в кластерах, особенно когда задачи имеют ограничения на выполнение только определенных узлов. Оптимизированный ensemble voting classifier показал самые высокие результаты. В бу
Abstract
This research investigates how Machine Learning (ML) algorithms can assist in
workload allocation strategies by detecting tasks with node affinity operators
(referred to as constraint operators), which constrain their execution to a
limited number of nodes. Using real-world Google Cluster Data (GCD) workload
traces and the AGOCS framework, the study extracts node attributes and task
constraints, then analyses them to identify suitable node-task pairings. It
focuses on tasks that can be executed on either a single node or fewer than a
thousand out of 12.5k nodes in the analysed GCD cluster. Task constraint
operators are compacted, pre-processed with one-hot encoding, and used as
features in a training dataset. Various ML classifiers, including Artificial
Neural Networks, K-Nearest Neighbours, Decision Trees, Naive Bayes, Ridge
Regression, Adaptive Boosting, and Bagging, are fine-tuned and assessed for
accuracy and F1-scores. The final ensemble voting classifier model achieved 98%
accuracy and a 1.5-1.8% misclassification rate for tasks with a single suitable
node.