📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня
Авторы:

Avinash Maurya, M. Mustafa Rafique, Franck Cappello, Bogdan Nicolae

## Контекст Обучение глубоких машинных сетей становится все более сложным из-за постоянного увеличения размеров глубоких нейронных сетей. Этот рост быстрее происходит, чем развитие технических решений, в частности, расширения памяти GPU. Таким образом, тренировка моделей, превышающих объем доступной памяти GPU, становится задачей, требующей разработки эффективных методов. Одним из ключевых подходов является использование многоуровневых стратегий оффлоада, включающих в себя использование различных типов памяти и дисков. Однако, несмотря на то, что такие методы могут оптимизировать частично процесс тренировки, они часто влияют на накопление оверхедов, в том числе из-за типичных ограничений в скорости доступа к памяти и диску. Данная работа ориентирована на разработку нового метода, который бы минимизировал эти проблемы и позволил эффективно обучать модели, превышающие размеры обычного GPU. ## Метод Методология MLP-Offload основывается на многоуровневой стратегии оффлоада, которая предлагает разделение данных по нескольким уровням хранения, включая CPU, GPU и внешнюю память. Технически, MLP-Offload использует оптимизированную стратегию асинхронного чтения и записи, чтобы минимизировать оверхеды в процессе обучения. Особенностью этого подхода является использование многопутевого оффлоада, которое позволяет синхронизировать работу нескольких GPU без необходимости ожидания завершения операций ввода-вывода. Также, проект использует техники кэширования и управления конкурентностью, чтобы обеспечить быструю и эффективную обработку данных. Такой метод позволяет уменьшить влияние I/O-оверхедов на общий процесс обучения, сохранив высокую производительность. ## Результаты Набор экспериментов проводился на моделях с размерами до 280 миллиардов параметров. Оценка производительности показала, что MLP-Offload уменьшает время итерации обучения в среднем в 2,5 раза по сравнению с другими технологиями, такими как ZeRO. Это достигается благодаря эффективному управлению вводом-выводом, которое минимизирует задержки в обработке данных. Также были измерены ресурсоемкость и общее влияние на систему, показав, что MLP-Offload не только улучшает скорость, но и эффективно использует доступные ресурсы. ## Значимость MLP-Offload имеет значительное значение для обучения глубоких нейронных сетей, особенно для моделей, превышающих размеры доступной GPU-памяти. Он может быть применен в сценариях с ограниченными ресурсами, включая обучение моделей для машинного обучения в облачных сервисах и высокопроизводительных вычислениях.
Annotation:
Training LLMs larger than the aggregated memory of multiple GPUs is increasingly necessary due to the faster growth of LLM sizes compared to GPU memory. To this end, multi-tier host memory or disk offloading techniques are proposed by state of art. Despite advanced asynchronous multi-tier read/write strategies, such offloading strategies result in significant I/O overheads in the critical path of training, resulting in slower iterations. To this end, we propose MLP-Offload, a novel multi-level, ...
ID: 2509.02480v1 cs.DC, cs.AI, cs.LG, H.2.0; E.2; I.2.11
Авторы:

Haijun Zhang, Jinxiang Wang, Zhenhua Yu, Yanyong Zhang, Xuejie Ji, Kaining Mao, Jun Zhang, Yaqing Zhang, Ting Wu, Fei Jie, Xiemin Huang, Zhifang Cai, Junhua Cheng, Shuwei Wang, Wei Li, Xiaoming Bao, Hua Xu, Shixiong Zhao, Jun Li, Hongwei Sun, Ziyang Zhang, Yi Xiong, Chunsheng Li

## Контекст Large language models (LLMs) представляют собой одно из самых мощных инструментов в современном искусственном интеллекте, применяющихся в различных областях — от трансляции и моделирования до предсказания и анализа. Однако их обучение на масштабах, необходимых для достижения высокого качества и точности, сталкивается с рядом технических проблем. В частности, проблема отказов в системе — как в железе, так и в программном обеспечении — является неизбежной частью таких масштабных предприятий. Эти отказы могут привести к ощутимым потерям во времени и ресурсах, что значительно замедляет процесс обучения. Поэтому целью исследования является разработка системы, позволяющей быстро и эффективно восстановить обучение после произошедшего отказа. ## Метод Система FlashRecovery представляет собой сложную структуру, состоящую из трех основных модулей. 1) **Активное и реальномерное мониторинговое отслеживание состояния обучения**: Эта часть системы постоянно отслеживает состояние обучения, позволяя немедленно выявить и сообщить о проблемах. 2) **Стратегия для масштабно независимой восстановления задач**: Эта часть включает в себя разные подходы к восстановлению для работающих и неисправных узлов, а также оптимизированный протокол для перестройки групп обмена данными. 3) **Механизм восстановления в одной ступени без чекпоинтов**: Это изобретение позволяет восстановить обучение за одну ступень, устраняя зависимость от традиционных методов чекпоинтов, которые часто являются ресурсоемкими и затратными. Общая цель — обеспечить минимально возможные значения Recovery Time Objective (RTO) и Recovery Point Objective (RPO). ## Результаты Проведены многочисленные эксперименты для оценки эффективности FlashRecovery. Она была испытана на кластере с 4 800 устройствами, где время восстановления после отказа составило всего 150 секунд. Это значительно меньше, чем обычно требуется для подобных операций. Также был проверен масштабируемый аспект системы — результаты показали, что время восстановления почти не зависит от масштаба обучающей задачи, что демонстрирует высокую универсальность системы. Восстановление происходит почти так же быстро независимо от того, ведется ли обучение на небольших или очень больших кластерах. ## Значимость FlashRecovery может быть применена в различных сферах, где LLMs используются для масштабного обучения. Основные преимущества — это повышение эффективности (через скорость восстановления) и надежности (через минимальные потери данных и времени). Такая система может вести к значительным экономиям в ресурсах и времени, особенно во время долгих и сложных задач обучения. Будущи
Annotation:
Large language models (LLMs) have made a profound impact across various fields due to their advanced capabilities. However, training these models at unprecedented scales requires extensive AI accelerator clusters and sophisticated parallelism strategies, which pose significant challenges in maintaining system reliability over prolonged training periods. A major concern is the substantial loss of training time caused by inevitable hardware and software failures. To address these challenges, we pr...
ID: 2509.03047v1 cs.DC, cs.AI
Авторы:

Arya Tschand, Muhammad Awad, Ryan Swann, Kesavan Ramakrishnan, Jeffrey Ma, Keith Lowery, Ganesh Dasika, Vijay Janapa Reddi

```## Контекст Повышение производительности GPU-ядер является ключевым фактором для улучшения общей эффективности вычислений в системах с высокой параллельностью. Однако развитие эффективных методов оптимизации GPU-ядер чрезвычайно сложно и требует значительных усилий от профессионалов. Существующие подходы часто основываются на поиске интуитивных решений, которые требуют проведения многократных экспериментов. Эта проблема усиливается при работе с современными большими языковыми моделями (LLMs), которые не включают в себя информацию об особенностях железа, тем самым снижая эффективность. SwizzlePerf предлагает решение этой проблемы, предлагая стратегию, которая использует специфику железа для повышения производительности GPU-ядер. ``` ```## Метод SwizzlePerf включает в себя множество технических решений, используя богатый набор данных, таких как профилирование, спецификации железа и исторические данные о производительности. За основу метода лежит использование LLMs для автоматического генерирования оптимальных свиззлинг-паттернов GPU-ядер. Эти паттерны определяются с учетом специфических паттернов доступа к памяти и архитектурных особенностей графических процессоров. Архитектура SwizzlePerf представляет собой комбинацию интеллектуальных агентов, которые анализируют профиль производительности и используют информацию о железе, чтобы генерировать оптимизированные решения в реальном времени. Этот подход позволяет уменьшить время разработки оптимизаций, существенно увеличивая эффективность. ``` ```## Результаты Проведенные эксперименты показали высокую эффективность SwizzlePerf. На специально скомпилированных тестах, включающих 10 различных моделей машинного обучения и научных вычислений, он смог генерировать оптимальные свиззлинг-паттерны для 9 моделей. Это привело к увеличению производительности до 2,06x и улучшению L2 hit rate до 70%. В сравнении с существующими методами, SwizzlePerf позволил экономить много времени (решение, которое заняло у экспертов 2 недели, было сгенерировано за менее 5 минут). Этот подход работает на разных архитектурах GPU и демонстрирует сосредоточенность на оптимизации специфичности железа. ``` ```## Значимость SwizzlePerf имеет широкое применение в области производительности вычислений, особенно в сфере глубокого обучения и научных вычислений. Его преимущества заключаются в том, что он позволяет автоматически создавать оптимизированные свиззлинг-паттерны, которые традиционно требовали многократных экспериментов и ручного анализа. Это может существенно сократить вре
Annotation:
Large language models (LLMs) have shown progress in GPU kernel performance engineering using inefficient search-based methods that optimize around runtime. Any existing approach lacks a key characteristic that human performance engineers rely on for near-optimal utilization -- hardware-awareness. By leveraging the workload's specific memory access patterns, architecture specifications, filtered profiling logs, and reflections on historical performance, we can make software-level optimizations th...
ID: 2508.20258v1 cs.DC, cs.AI
Авторы:

Fahao Chen, Jie Wan, Peng Li, Zhou Su, Dongxiao Yu

--------------------------------------------------------------------------- ## Контекст Federated fine-tuning (FFT) является ключевым подходом для адаптации больших языковых моделей (LLMs) к конкретным задачам и данным на клиентских устройстрах. Однако, в случае спarsely-activated MoE-based LLMs, это обеспечивает значительные вызовы, такие как высокие требования к вычислительным ресурсам и конфиденциальность данных клиентов. На данный момент, существующие методы, такие как quantization, computation offloading и expert pruning, не могут достичь оптимальных результатов из-за непрактичных системных предположений и невнимательного отношения к характеристикам MoE. В этой работе мы рассматриваем эту проблему, сформулируем цельское федеративное окружение для постоянного оптимизации моделей с минимальными вычислительными затратами и максимальным ускорением достижения достоверных результатов. --------------------------------------------------------------------------- ## Метод Мы предлагаем FLUX, систему, которая обеспечивает эффективное федеративное окружение для файн-тюнинга MoE-based LLMs на устройствах с ограниченными вычислительными ресурсами, таких как современные GPU. FLUX включает три основных инновации: (1) **Quantization-based local profiling**, позволяющий оценивать активации экспертов с минимальными вычислительными затратами; (2) **Adaptive layer-aware expert merging**, способствующий снижению потребления ресурсов без потери точности; (3) **Dynamic expert role assignment**, использующий стратегию exploration-exploitation для балансировки процесса изучения и применения. Эти технические решения позволяют FLUX повысить эффективность и сократить время достижения достоверных результатов на 4.75X в сравнении с соревнованиями. --------------------------------------------------------------------------- ## Результаты Для оценки FLUX, мы проводили ряд экспериментов на двух моделях: LLaMA-MoE и DeepSeek-MoE. Использовались множество бенчмарк-датасеты, включающие различные задачи NLU и NLG. Результаты показывают, что FLUX ускоряет достижение достоверных результатов на 4.75X в сравнении с текущими методами, сохраняя очень высокую точность. Особую эффективность FLUX продемонстрировали на ресурсно-ограниченных устройствах, где другие методы показывали значительные просадки в производительности. --------------------------------------------------------------------------- ## Значимость FLUX открывает новые возможности для применения больших языковых моделей в реальном мире, особенно в сценариях с ограниченными ресурсами. Он позволяет значительно сократить время достижения работоспособной модели, что ключево для быстрого развертывания в сценариях, таких как мобильные приложения и IoT. Благодаря своим инновационным техническим решениям, FLUX обеспечивает значительное ускорение времени обучения и минимальные потери точности, делая его привлекательным решением для промышленного применения. --------------------------------------------------------------------------- ## Выводы FLUX достигает существенных улучшений в скорости и эффективности FFT для MoE-based LLMs. Наши и
Annotation:
Federated fine-tuning of Mixture-of-Experts (MoE)-based large language models (LLMs) is challenging due to their massive computational requirements and the resource constraints of participants. Existing working attempts to fill this gap through model quantization, computation offloading, or expert pruning. However, they cannot achieve desired performance due to impractical system assumptions and a lack of consideration for MoE-specific characteristics. In this paper, we propose FLUX, a system de...
ID: 2508.19078v1 cs.DC, cs.AI
Авторы:

Rongzhi Li, Ruogu Du, Zefang Chu, Sida Zhao, Chunlei Han, Zuocheng Shi, Yiwen Shao, Huanle Han, Long Huang, Zherui Liu, Shufan Liu

#### Контекст Построение и поддержание сервисов Large Language Models (LLMs) потребляют большие ресурсы, особенно при использовании Prefill-Decode (P/D) архитектур. Эти архитектуры разделяют работу на две стадии — Prefill и Decode, что приводит к неэффективному использованию разнородного оборудования и к сетевым проблемам. Традиционные автомасштабируемые системы не способны эффективно управлять такими системами, что приводит к потере ресурсов и нехватке ресурсов. Это создает мотивацию для разработки новых методологий, которые могут эффективно управлять ресурсами в таких сложных системах. #### Метод Методология, представленная в HeteroScale, основывается на топологически созданном расписании и метрике, оптимизированной для больших данных. Архитектура включает в себя два основных компонента: 1) топологический планировщик, который адаптируется к разным типам железа и сетевым ограничениям, и 2) метрика-драйвенная политика, основанная на эмпирических данных. Технически, HeteroScale использует новую метрику для совместного управления пулом Prefill и Decode, чтобы поддерживать баланс архитектуры и эффективно управлять ресурсами. Эту модель протестировали на огромном производственном окружении, надеясь на улучшение управления железом и экономии ресурсов. #### Результаты В результате экспериментов, проведенных на большом количестве реальных данных, показано, что HeteroScale эффективно улучшает управление ресурсами. Он увеличивает среднюю загрузку GPU до 26.6%, что значительно превышает результаты традиционных систем. Это приводит к экономии сотен тысяч GPU-часов ежедневно, сохраняя при этом высокие сервисные уровни. Эти результаты показывают, что HeteroScale может эффективно решить проблемы, связанные с высоконагруженными LLM-сервисами. #### Значимость HeteroScale может применяться в различных областях, где требуется эффективное управление ресурсами в сервисах с графическими процессорами, таких как обработка естественного языка, генерация текста, трансляции и другие GPU-интенсивные задачи. Он предоставляет значительные преимущества, такие как эффективное использование ресурсов, низкие затраты на ресурсы и улучшение производительности. Это может существенно повлиять на развитие сервисов LLM, улучшая их стоимость и эффективность. #### Выводы HeteroScale — это эффективная система управления ресурсами, которая может работать в сложных ситуациях с разнородным оборудованием и разделенными архитектурами. Она не только улучшает производительность, но и экономит ресурсы, устанавливая новые стандарты для LLM-сервисов. Будущие исследования будут нацелены
Annotation:
Serving Large Language Models (LLMs) is a GPU-intensive task where traditional autoscalers fall short, particularly for modern Prefill-Decode (P/D) disaggregated architectures. This architectural shift, while powerful, introduces significant operational challenges, including inefficient use of heterogeneous hardware, network bottlenecks, and critical imbalances between prefill and decode stages. We introduce HeteroScale, a coordinated autoscaling framework that addresses the core challenges of P...
ID: 2508.19559v1 cs.DC, cs.AI
Авторы:

Matthias Maiterth, Wesley H. Brewer, Jaya S. Kuruvella, Arunavo Dey, Tanzima Z. Islam, Kevin Menear, Dmitry Duplyakin, Rashadul Kabir, Tapasya Patki, Terry Jones, Feiyi Wang

## Контекст В цифровизированном мире, где высокопроизводительные вычисления (HPC) играют ключевую роль, системы планирования (schedulers) являются критически важными для эффективного использования ресурсов. Однако современные методы оценки этих систем ограничены, ограничиваясь либо пост-деплойментной экспериментальной оценкой, либо симуляторами, не учитывающими взаимодействие с физическими системами. Это приводит к значительным ограничениям в моделировании и эффективном прототипировании новых стратегий планирования. Мотивация заключается в развитии решений, которые позволят проводить эффективные "что если" анализы, определяя влияние параметров и стратегий на физические инфраструктуры, включая системы охлаждения и энергопотребление. ## Метод Мы предлагаем первое полностью интегрированное решение, объединяющее методологию дигитальных двойников (digital twins) с методами планирования HPC. Наша методология включает следующие этапы: (1) разработка фреймворка дигитальных двойников, расширенного для возможности планирования; (2) интеграцию данных от различных HPC-систем, доступных публично; (3) разработка системы, позволяющей интегрировать сторонние модели планирования; (4) эмпирическое исследование и оценка систем лояльности и моделей машинного обучения в контексте HPC; и (5) разработка модуля для эффективной оценки взаимодействия между планированием и оптимизацией ресурсов в физической системе. ## Результаты Мы проводили эксперименты с использованием данных от нескольких представительных HPC-систем, включая их метрики потребления питания, производительности и охлаждения. Наши результаты показали, что интеграция дигитальных двойников и моделей планирования позволяет: (1) эффективно прототипировать и оценивать новые стратегии планирования в "что если" сценариях; (2) понять влияние параметров на производительность и энергоэффективность; (3) оценивать влияние различных систем лояльности, таких как торговые преимущества и наценки за ресурсное эффективное использование; и (4) протестировать машинное обучение для автоматизированных решений в HPC. ## Значимость Наш фреймворк предоставляет ценные возможности для моделирования и прототипирования в HPC, что может привести к значительным улучшениям в управлении ресурсами. Он позволяет оценивать влияние на систему в целом, включая системы охлаждения, энергопотребление и лояльность систем. Это имеет потенциал для улучшения энергоэффективности, сокращения энергозатрат и увеличения эффективности в различных сценариях применения, включая облачные вычисления и цифровизирова
Annotation:
Schedulers are critical for optimal resource utilization in high-performance computing. Traditional methods to evaluate schedulers are limited to post-deployment analysis, or simulators, which do not model associated infrastructure. In this work, we present the first-of-its-kind integration of scheduling and digital twins in HPC. This enables what-if studies to understand the impact of parameter configurations and scheduling decisions on the physical assets, even before deployment, or regarching...
ID: 2508.20016v2 cs.DC, cs.AI, cs.ET, cs.SY, eess.SY
Авторы:

Xinhao Luo, Zihan Liu, Yangjie Zhou, Shihan Fang, Ziyu Huang, Yu Feng, Chen Zhang, Shixuan Sun, Zhenzhe Zheng, Jingwen Leng, Minyi Guo

## Контекст Large language model (LLM) decoding представляет собой вычислительно тяжелую задачу, которая часто сталкивается с проблемами высокой задержки и ограниченной эффективностью. Основная причина этого является разрозненной интерпретацией операторов, обусловленной их различными характеристиками, и значительной зависимостью от внешней памяти для обмена и суммирования данных. Эта ситуация ставит перед разработчиками трудности в масштабировании и оптимизации вычислений. Добавляется к этому значительный объем трафика памяти и целей для запуска ядер, что делает систему менее эффективной. Однако современные архитектуры, такие как NVIDIA Hopper, предоставляют распределенный общий доступ к памяти и низкозадерживающие интерконнекты между кластерами. Тем не менее, они предоставляют только низкоуровневые команды для перемещения данных, не имея структурированных абстракций для коллективных операций в пределах кластера. Из-за этого отсутствия, потенциал кластера остается недостижимым. Мы предлагаем ClusterFusion, чтобы решить эти проблемы. ## Метод ClusterFusion предлагает два ключевых кластер-уровневых абстракций: ClusterReduce и ClusterGather. Эти примитивы абстрагируют типичные шаблоны коммуникации и обеспечивают эффективную передачу и суммирование данных в пределах кластера. Они позволяют выполнить на чипе все необходимое для вычислений, не подразумевая обращение к внешней памяти. Эти примитивы интегрируются в ClusterFusion, архитектуру, которая управляет расписанием работы во время выполнения. Она стремится расширить объем возможного совмещения операторов, объединяя такие этапы, как проекция QKV, атанк, и выходные проекции, в один fussed kernel. Эта модель позволяет уменьшать задержки и увеличивать эффективность, позволяя операциям быть более структурированными и быстрыми. ## Результаты Мы проверили ClusterFusion на H100 GPU и сравнили его с современными фреймворками для вывода LLM. Эксперименты показали, что ClusterFusion уменьшает задержку в среднем на 1.61x, оптимизируя работу над различными моделями и конфигурациями. Эти результаты достигаются благодаря улучшенной структуре и эффективной интеграции коммуникации и вычислений. Наши результаты подтверждают, что ClusterFusion значительно улучшает производительность в различных условиях. ## Значимость ClusterFusion может применяться в различных областях, где требуется высокая эффективность вывода LLM, таких как разработка новых технологий для глубокого обучения, реализация моделей для трансляции и синтеза речи, а также применение в системах рекомендаций и синтетического текста. Это решение отличается своей высокой масштабируемостью, меньшим требо
Annotation:
Large language model (LLM) decoding suffers from high latency due to fragmented execution across operators and heavy reliance on off-chip memory for data exchange and reduction. This execution model limits opportunities for fusion and incurs significant memory traffic and kernel launch overhead. While modern architectures such as NVIDIA Hopper provide distributed shared memory and low-latency intra-cluster interconnects, they expose only low-level data movement instructions, lacking structured a...
ID: 2508.18850v1 cs.DC, cs.AI
Авторы:

Daniele De Sensi, Saverio Pasqualoni, Lorenzo Piarulli, Tommaso Bonato, Seydou Ba, Matteo Turisini, Jens Domke, Torsten Hoefler

## Контекст В современных высокопроизводительных вычислительных системах (HPC), эффективность выполнения коллективных операций является ключевым фактором. Эти операции часто затрагивают большое число узлов системы, и их производительность сильно зависит от качества сетевой связи. Одна из основных проблем таких систем — ограниченная ёмкость глобальных сетевых каналов. На больших системах с ограниченным количеством глобальных связей (oversubscribed networks), где группы узлов широко подключены внутри своих подгрупп, но слабо связаны между собой через глобальные связи, эффективность операций может быть значительно снижена. Авторы статьи Bine Trees: Enhancing Collective Operations by Optimizing Communication Locality рассматривают возможности улучшения за счёт оптимизации локальности коммуникаций. ## Метод Bine Trees представляют собой новую семейство алгоритмов для коллективных операций, основанные на нотации производных двоичных деревьев (binomial trees) и бабочек (butterflies). Эти алгоритмы используют новую парадигму, которая позволяет оптимизировать локальность коммуникаций. Разработчики вводят новую нотацию, которая позволяет строить структуры, которые обладают теми же свойствами, что и binomial trees и butterflies, но при этом существенно снижают трафик через глобальные связи. Технология Bine Trees реализована для различных коллективных операций, таких как обмен (exchange), распределение (scatter) и сбор (gather). ## Результаты Авторы проводили эксперименты на суперкомпьютерах с такими топологиями, как Dragonfly, Dragonfly+, ограниченные fat-tree и тори. Они измерили производительность и трафик глобальных связей для Bine Trees в сравнении с классическими алгоритмами. На больших системах с ограниченными глобальными каналами, Bine Trees показали скорости, достигающие 5x ускорения и снижение глобального трафика до 33%. Эти результаты были постоянными в различных условиях, включая разные размеры векторов и количество узлов. ## Значимость Bine Trees могут использоваться в различных областях, где требуется эффективность выполнения коллективных операций, таких как моделирование, симуляции, искусственный интеллект и вычисления в области геномики. Их особенность в улучшении локальности коммуникаций делает их особенно полезными для систем с ограниченными глобальными связями. Эта технология может существенно повысить производительность HPC-систем, сократить время выполнения задач и снизить нагрузку на глобальные каналы. ## Выводы Bine Trees являются эффективным решением для улучшения локальности коммуникаций в коллективных операциях на больших HPC-системах. Они обеспечивают существенное улучшение производительност
Annotation:
Communication locality plays a key role in the performance of collective operations on large HPC systems, especially on oversubscribed networks where groups of nodes are fully connected internally but sparsely linked through global connections. We present Bine (binomial negabinary) trees, a family of collective algorithms that improve communication locality. Bine trees maintain the generality of binomial trees and butterflies while cutting global-link traffic by up to 33%. We implement eight Bin...
ID: 2508.17311v1 cs.DC, cs.AI, cs.PF, C.2.4; C.5.1
Авторы:

Anderson de Lima Luiz, Shubham Vijay Kurlekar, Munir Georges

## Контекст Область исследований связана с развитием высокопроизводительных вычислительных систем (HPC) для развертывания и интерпретации больших языковых моделей (LLMs). Нейронные сети с гигантскими параметрами требуют высоких производительности, гибкости и скорости, чтобы обеспечить реальноспособность в таких приложениях, как чат-боты, генерация текста и контекстное понимание. Однако существуют проблемы с ресурсами и ресурсной оптимизацией, которые могут привести к замедлению отклика и недостаточной масштабируемости. Мотивация заключается в создании прозрачной, многоузловой системы, способной эффективно распределять ресурсы и управлять ими в целях масштабирования и улучшения производительности. ## Метод Разработанная система основывается на Simple Linux Utility for Resource Management (SLURM), позволяющем управлять ресурсами на многоузловых кластерах. Использованы containerized microservices для упаковки и выполнения моделей, что обеспечивает динамическую перераспределяемость ресурсов. Особое внимание уделено архитектуре REST API для поддержки взаимодействия с моделями, включая одиночные и многострочные запросы. Также включены расширенные рабочие процессы, такие как "tribunal" refinement, для повышения точности и степени семантической релевантности ответов. Технологии горизонтального масштабирования и динамической трафик-реагирования использованы для обеспечения масштабируемости и отказоустойчивости. ## Результаты В ходе экспериментов проводилось исследование производительности различных моделей LLM, включая Llama 3.2 (1B и 3B параметров) и Llama 3.1 (8B и 70B параметров). Были измерены показатели пропускной способности, задержки и конкурентности. Smaller models (Llama 3.2, 1B и 3B) показали возможность обслуживать до 128 запросов в минуту с задержкой менее 50 мс. В то же время, large models (Llama 3.1, 8B и 70B) показали значительное замедление и начали отказываться от обслуживания с лишь двумя пользователями, при задержке более 2 секунд. Эти результаты подтвердили высокую эффективность архитектуры для small-scale интерфейсов, но также показали ограничения для больших моделей. ## Значимость Разработанная архитектура отличается широкой многозначностью: она может применяться в сферах NLP, чат-ботов, генерации текста и даже в сложных сценариях с "tribunal" refinement. Наиболее значимая преимущественная сторона заключается в том, что она позволяет сочетать масштабируемость, отказоустойчивость и скорость взаимодействия. Это делает ее привлекательной для реального применения в реальном времени. Будущие исследования могут сосредоточиться на улучшении системы для более
Annotation:
This work elaborates on a High performance computing (HPC) architecture based on Simple Linux Utility for Resource Management (SLURM) [1] for deploying heterogeneous Large Language Models (LLMs) into a scalable inference engine. Dynamic resource scheduling and seamless integration of containerized microservices have been leveraged herein to manage CPU, GPU, and memory allocations efficiently in multi-node clusters. Extensive experiments, using Llama 3.2 (1B and 3B parameters) [2] and Llama 3.1 (...
ID: 2508.17814v1 cs.DC, cs.AI, 68M20, 68T50, C.4; D.4.7; I.2.7
Авторы:

Zahra Yousefijamarani, Xinglu Wang, Qian Wang, Morgan Lindsay Heisler, Taha Shabani, Niloofar Gholipour, Parham Yassini, Hong Chang, Kan Chen, Qiantao Zhang, Xiaolong Bai, Jiannan Wang, Ying Xiong, Yong Zhang, Zhenan Fan

## Контекст Modern large language model (LLM) serving systems сталкиваются с вызовами, связанными с интенсивными изменениями в запросах, отличающимися по длине, приоритету и различным сервис-уровням (SLOs). Эти проблемы включают необходимость реалить реального времени scheduling, быстрого и экономичного масштабирования, а также поддержку коллокатовных и дисагрегованных Prefill/Decode (P/D) архитектур. Недостаток эффективных решений для объединения алгоритмических и системных инноваций приводит к низкой эффективности и высоким затратам при обслуживании запросов. ## Метод Основная идея **HyperFlexis** заключается в совместном оптимизировании scheduling и scaling. Это достигается через разработку взаимозависимого алгоритмического и системного подхода, который задействует: 1. **Multi-SLO-aware Scheduler**, который использует budget estimation и request prioritization для управления SLO запросов, как новых, так и продолжающихся. 2. **Optimized Scaling**, который поддерживает prefill- и decode-stage scheduling для P/D-архитектур и KV cache transfers. 3. **Cost-Effective Scaling**, включающий в себя linking prefill- и decode-instance и быстрые P/D role transitions. 4. **Device-to-Device (D2D) Weight Transfer Mechanism**, который уменьшает overhead при загрузке весов до **19.39×**. ## Результаты Эксперименты проводились на реальных данных с LLM-запросами, где **HyperFlexis** была сравнена с состоянием искусства. Результаты показали: - **SLO Attainment**: достижение до **4.44×** выше, в сравнении с baseline. - **Request Latency**: **65.82\%** lower latency. - **Cost Efficiency**: стоимость операций соответствует состоянию искусства. Эти результаты доказывают улучшения в производительности и экономичности в много-SLO запросах. ## Значимость **HyperFlexis** может применяться в различных областях, таких как real-time LLM serving, видео-потоковое обслуживание, и другие задачи, требующие высокой производительности и экономичности. Его преимущества включают: - Улучшенная эффективность SLOs. - Значительное сокращение latency. - Экономичная стоимость. Будущие исследования будут фокусироваться на улучшении scalability для более крупных моделей и повышении adaptive capacity в запросах. ## Выводы **HyperFlexis** является первым подходом, который успешно объединяет algorithmic и system-level innovations для много-SLO serving и rapid scaling. Он достигает высокой эффективности в запросах, доказывая свою эффективность в реальных ситуациях. На будущее, исследования будут сфокусированы на улучшении adaptive capacity и scalability.
Annotation:
Modern large language model (LLM) serving systems face challenges from highly variable requests with diverse lengths, priorities, and stage-specific service-level objectives (SLOs). Meeting these requires real-time scheduling, rapid and cost-effective scaling, and support for both collocated and disaggregated Prefill/Decode (P/D) architectures. We present \textbf{HyperFlexis}, a unified LLM serving system that integrates algorithmic and system-level innovations to jointly optimize scheduling a...
ID: 2508.15919v1 cs.DC, cs.AI
Показано 71 - 80 из 86 записей