Tesserae: Scalable Placement Policies for Deep Learning Workloads

2508.04953v1 cs.DC, cs.AI 2025-08-09

Авторы:

Song Bian, Saurabh Agarwal, Md. Tareq Mahmood, Shivaram Venkataraman

Резюме на русском

## КОНТЕКСТ И ПРОБЛЕМАТИКА Обучение моделей глубокого обучения (DL) является ключевой рабочей нагрузкой в современных центрах обработки данных (DC). Эффективное использование ресурсов является краеугольной задачей для планировщиков кластеров DL. Однако существующие методы поиска решений для размещения задач в кластере сталкиваются с значительными ограничениями. Кластерные планировщики DL обычно используют политики размещения для определения того, где задания будут выполняться в кластере. Тем не менее, существующие политики размещения либо основываются на ад-хок методах (ad-hoc heuristics), либо интегрируются в виде ограничений в сложные оптимизационные задачи. Такие подходы могут приводить либо к подвыборке (suboptimal performance), либо к неэффективному масштабированию (poor scalability). Главная проблема состоит в том, что традиционные политики размещения не справляются с высокой динамикой и сложностью DL-кластеров, что приводит к чрезмерной нагрузке и неэффективному использованию ресурсов, таких как GPU. Кроме того, миграция задач (job migration) между узлами кластера может приводить к дополнительным накладным расходам (overheads), что ухудшает общую производительность. Таким образом, необходим новый подход, который мог бы обеспечить более эффективное распределение ресурсов и уменьшить накладные расходы на миграцию задач. ## ПРЕДЛОЖЕННЫЙ МЕТОД В работе предлагается методология Tesserae, которая использует новые политики размещения для решения проблемы миграции задач и оптимизации использования GPU в кластере. Основная идея заключается в том, чтобы формализовать многие ограничения размещения как проблемы графового сопоставления (graph matching problems). Это позволяет разработать политики, которые минимизируют накладные расходы на миграцию задач и оптимизируют упаковку задач (job packing). Tesserae включает в себя два основных компонента: графовое моделирование задач и оптимизация размещения. Графы используются для представления зависимостей и ограничений между задачами и ресурсами в кластере. Затем, на основе этого представления, применяется алгоритм графового сопоставления для определения оптимальных мест размещения задач. Это позволяет уменьшить количество необходимых перемещений задач между узлами и, следовательно, снизить накладные расходы. Кроме того, Tesserae интегрирует эти политики в рамках гибкой и масштабируемой архитектуры планировщика. Эта архитектура поддерживает динамическое изменение ресурсов и позволяет эффективно адаптироваться к различным рабочим нагрузкам. Это обеспечивает высокую производительность и масштабируемость, что является ключевым достижением этого подхода. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Для оценки эффективности Tesserae были проведены различные эксперименты, использующие реальные рабочие нагрузки DL. Данные для экспериментов были получены из крупномасштабных кластеров GPU, которые используются для обучения DL-моделей. Эксперименты проводились на разных размерах кластеров, от небольших до крупных, для оценки масштабируемости Tesserae. Результаты показали, что Tesserae улучшает среднее время выполнения задач (JCT, Job Completion Time) до 1.62 раза по сравнению с существующими планировщиками. Кроме того, Tesserae уменьшает общее время выполнения всех задач (Makespan) до 1.15 раза. Эти результаты демонстрируют высокую эффективность и масштабируемость предлагаемого подхода. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Tesserae имеет широкое применение в области управления ресурсами в DL-кластерах. Он может быть использован для оптимизации работы крупных дата-центров, где обучение DL-моделей является одной из ключевых рабочих нагрузок. Преимущества Tesserae включают в себя уменьшение времени выполнения задач, снижение накладных расходов на миграцию задач, и повышение общей производительности кластера. Кроме того, Tesserae может быть применен в облачных вычислениях, где эффективное использование ресурсов является критическим фактором для экономичности и производительности. Потенциальное влияние Tesserae заключается в том, что он может существенно улучшить эффективность использования GPU и других ресурсов в кластерах, что может привести к существенным экономиям времени и ресурсов. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ Основными достижениями Tesserae являются улучшение среднего времени выполнения задач и общего времени выполнения всех задач, а также повышение масштабируемости планировщика. Будущие исследования могут фокусироваться на дальнейшей оптимизации алгоритмов графового сопоставления и расширении применимости Tesserae к другим типам ресурсов, таких как TPU или FPGA, а также на интеграции с более сложными DL-рабочими нагрузками.

Abstract

Training deep learning (DL) models has become a dominant workload in data-centers and improving resource utilization is a key goal of DL cluster schedulers. In order to do this, schedulers typically incorporate placement policies that govern where jobs are placed on the cluster. Existing placement policies are either designed as ad-hoc heuristics or incorporated as constraints within a complex optimization problem and thus either suffer from suboptimal performance or poor scalability. Our key insight is that many placement constraints can be formulated as graph matching problems and based on that we design novel placement policies for minimizing job migration overheads and job packing. We integrate these policies into Tesserae and describe how our design leads to a scalable and effective GPU cluster scheduler. Our experimental results show that Tesserae improves average JCT by up to 1.62x and the Makespan by up to 1.15x compared with the existing schedulers.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Tesserae: Scalable Placement Policies for Deep Learning Workloads

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Delta Sum Learning: an approach for fast and global convergence in Gossip Learni...

SparOA: Sparse and Operator-aware Hybrid Scheduling for Edge DNN Inference

Beluga: A CXL-Based Memory Architecture for Scalable and Efficient LLM KVCache M...

Fast LLM Post-training via Decoupled and Best-of-N Speculation

Fast LLM Post-training via Decoupled and Best-of-N Speculation

Навигация