📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 ShadowServe: Interference-Free KV Cache Fetching for Distributed Prefix Caching

2025-09-24

Авторы:

Xingyu Xiang, Raj Joshi, Yuhan Liu, Jiayi Yao, Chenxingyu Zhao, Junchen Jiang, Yang Zhou, Eddie Kohler, Minlan Yu

## Контекст Одним из ключевых аспектов работы моделей глубокого обучения, таких как трансформеры, является эффективное управление кэшированием ключ-значение (KV). Это особенно важно для распределенных приложений с префиксной кэш-выборкой, где часто используются общие контекстные префиксы. Тем не менее, развитие этих систем сталкивается с рядом проблем, в том числе ограничениями по бандводу, конфликтам между операциями кэширования и вычислениями моделей. Необходимо разработать систему, которая бы обеспечивала эффективное кэширование, не нарушая вычислительные процессы. ## Метод ShadowServe — это первая система, основанная на SmartNIC, которая реализует интерфейс префиксного кэширования для распределенной обработки моделей глубокого обучения. Основной идеей является разделение обработки на два плана: контрольный (на хосте) и данных (на SmartNIC). Это позволяет избежать конфликтов между вычислениями GPU и операциями кэширования. Чтобы оптимизировать ресурсы SmartNIC, ShadowServe применяет технологию чанкованного пайплайна, которая разделяет данные на блоки и распределяет их по разным вычислительным модулям. Также используется схема минимального копирования, чтобы уменьшить нагрузку на память SmartNIC. ## Результаты Эксперименты проводились на реальных данных и показали высокую эффективность ShadowServe. Она достигла снижения загрузки времени на вывод токена (TPOT) до 2.2 раз по сравнению с состоянием техники. Также было замечено уменьшение времени до первого токена (TTFT) в 1.38 раз в условиях низкой пропускной способности (<= 20 Gbps). В ситуациях, когда пропускная способность достигала 20-50 Gbps, ShadowServe показала до 1.35 раза вышей производительности. Эти результаты подтверждают высокую эффективность и надежность нового подхода. ## Значимость ShadowServe может быть применена в различных сценариях, где требуется эффективное кэширование для моделей глубокого обучения. Она обеспечивает более быструю загрузку и обработку данных, что уменьшает задержки и повышает производительность систем. Такой подход может стать ключевой компонентой для развития технологий в области ИИ, особенно в случае распределенных систем с ограниченной пропускной способностью. Будущие исследования будут сконцентрированы на улучшении скорости отклика и уменьшении накладных расходов. ## Выводы ShadowServe доказала свою эффективность в решении проблем кэширования ключ-значение в распределенных системах. Она позволяет эффективно изолировать вычисления моделей GPU от операций кэширования, что повышает общую производительность. Этот подход является первым шагом к более производительным и независимым от бандвода си

Annotation:

Distributed prefix caching accelerates long-context LLM serving by reusing KV cache entries for common context prefixes. However, KV cache fetches can become a bottleneck when network bandwidth is limited. Compression mitigates the bandwidth issue, but can degrade overall performance when decompression interferes with model computation. We present ShadowServe, the first SmartNIC-accelerated, interference-free prefix caching system for LLM serving. ShadowServe separates a control plane on the h...

ID: 2509.16857v1 cs.DC, cs.AI, cs.LG

arXiv PDF

📄 Machine Learning-Driven Predictive Resource Management in Complex Science Workflows

2025-09-17

Авторы:

Tasnuva Chowdhury, Tadashi Maeno, Fatih Furkan Akman, Joseph Boudreau, Sankha Dutta, Shengyu Feng, Adolfy Hoisie, Kuan-Chieh Hsu, Raees Khan, Jaehyung Kim, Ozgur O. Kilic, Scott Klasky, Alexei Klimentov, Tatiana Korchuganova, Verena Ingrid Martinez Outschoorn, Paul Nilsson, David K. Park, Norbert Podhorszki, Yihui Ren, John Rembrandt Steele, Frédéric Suter, Sairam Sri Vatsavai, Torre Wenaus, Wei Yang, Yiming Yang, Shinjae Yoo

## Контекст Научные эксперименты в сложных и масштабных проектах часто включают в себя тысячи участников со всего мира. Эти проекты требуют постоянного расширения технологий и методов для обработки больших объемов данных. Одной из ключевых проблем является точное определение ресурсов, необходимых для каждого этапа обработки данных. Несовершенство этого процесса может привести к ошибкам, неэффективному использованию ресурсов и задержкам в анализе. Эти проблемы становятся более актуальными в условиях постоянного увеличения данных и разнообразия вычислительных возможностей. В этой статье представлена машинное-обучение-движущаяся модель для прогнозирования ресурсов в широкомасштабных научных проектах. Модель нацелена на решение проблем, связанных с ограниченным предварительным знанием о характеристиках каждого этапа процесса. Обеспечивая более точные прогнозы, модель помогает улучшить эффективность управления рабочими процессами и использования ресурсов. ## Метод Методология основывается на разработке и интеграции множества машинно-обучаемых моделей в систему управления рабочими процессами (Production and Distributed Analysis, PanDA). Эти модели используют глубокое обучение и регрессионные методы для прогнозирования ресурсов для каждого этапа обработки данных. Основной функционал включает: - **Подготовка данных**: Использование исторических данных для обучения моделей. - **Моделирование**: Использование глубоких нейронных сетей для прогнозирования времени и ресурсов для каждого этапа. - **Интеграция**: Интеграция моделей в PanDA для использования в реальном времени. Разработка методов включала обучение моделей на больших наборах данных, включающих разные сценарии обработки, для обеспечения высокой точности прогнозов. ## Результаты Эксперименты проводились на реальных научных рабочих процессах, включающих многоэтапную обработку данных. Модели показали высокую точность прогноза времени и ресурсов для каждого этапа. Например, в одном из сценариев модель уменьшила ошибку прогноза ресурсов на 20% в сравнении с существующими методами. Кроме того, проверки показали, что модели эффективно обрабатывают данные в реальном времени, дают возможность прогнозировать необходимые ресурсы с минимальными задержками и повышают общую эффективность управления рабочими процессами. ## Значимость Результаты могут быть применены в различных научных областях, где требуется оптимизация ресурсов и управление многоэтапными рабочими процессами. Например, в областях физики, биологии, инженерии и искусственного интеллекта. Модели позволяют: - Уменьшить за

Annotation:

The collaborative efforts of large communities in science experiments, often comprising thousands of global members, reflect a monumental commitment to exploration and discovery. Recently, advanced and complex data processing has gained increasing importance in science experiments. Data processing workflows typically consist of multiple intricate steps, and the precise specification of resource requirements is crucial for each step to allocate optimal resources for effective processing. Estimati...

ID: 2509.11512v1 cs.DC, cs.AI, cs.LG, 68T05, 68M14, 68W10

arXiv PDF

📄 LiquidGEMM: Hardware-Efficient W4A8 GEMM Kernel for High-Performance LLM Serving

2025-09-05

Авторы:

Huanqi Hu, Bowen Xiao, Shixuan Sun, Jianian Yin, Zhexi Zhang, Xiang Luo, Chengquan Jiang, Weiqi Xu, Xiaoying Jia, Xin Liu, Minyi Guo

#### Контекст В последние годы глубокое обучение (LLM) набирает все большую популярность, особенно в сферах, требующих высокой производительности и эффективности. Одной из ключевых задач в этой области является оптимизация моделей для работы на ограниченных ресурсах. Одним из эффективных способов достижения этой цели является использование схем квантования, которые уменьшают объем памяти и увеличивают скорость вычислений. Одним из популярных вариантов является квантование с 4-битным весом и 8-битными активациями (W4A8). Тем не менее, существующие реализации W4A8 GEMM (General Matrix Multiply) оказываются недостаточно эффективными в плане вычислительной скорости, в частности из-за проблем с деквантизацией на CUDA Cores. Это влечет за собой неэффективность при использовании высокопроизводительных Tensor Cores. В данной работе мы предлагаем LiquidGEMM — новое решение, созданное с целью устранения этих проблем и увеличения производительности LLM-сервиса. #### Метод LiquidGEMM основывается на двух основных технических приемах. Первым — LiquidQuant, новая техника квантования, которая позволяет производить деквантизацию с использованием только двух арифметических операций на 4 элемента. Это позволяет избежать проблем с переполнением и улучшить эффективность вычислений. Вторым — implicit fine-grained pipeline, которая допускает полное параллельное выполнение задач по загрузке весов, деквантизации и выполнения матричных многошаговых арифметических операций (MMA) без необходимости синхронизации в программном уровне или повторных чтений памяти. Эта архитектура дозволяет использовать весь потенциал Tensor Cores, обеспечивая существенные выигрыши в скорости выполнения. #### Результаты В ходе экспериментов LiquidGEMM демонстрирует существенные выигрыши по производительности. По сравнению с состоянием техники, достигнутые скорости выполнения выше на 2,9 раза. Этот результат достигается благодаря эффективной реализации деквантизации и полному параллелизму внутри кадров. Более того, LiquidGEMM показывает системно-уровневые выигрыши до 4,94 раз, что свидетельствует о значительном улучшении общей эффективности системы. Сравнение с ранее используемыми W4A8-реализациями в NVIDIA TensorRT-LLM показало, что LiquidGEMM дает прирост скорости в диапазоне от 1,12 до 1,63 раз, а также достигает до 1,63 раз системных выигрышей. #### Значимость Предложенное решение имеет широкие применения в области обработки естественного языка, в том числе при работе с моделями типа LLM. Оно обеспечивает значительное увеличение производительности в сравнении с текущими стандартами. Благодаря использованию LiquidQuant и пара

Annotation:

Quantization is a critical technique for accelerating LLM inference by reducing memory footprint and improving computational efficiency. Among various schemes, 4-bit weight and 8-bit activation quantization (W4A8) offers a strong balance between accuracy and performance. However, existing W4A8 GEMM kernels fall short in practice due to inefficient dequantization on CUDA Cores, which cannot keep pace with the high throughput of Tensor Cores. In this paper, we present LiquidGEMM, a hardware-effici...

ID: 2509.01229v1 cs.DC, cs.AI, cs.LG

arXiv PDF

📄 MLP-Offload: Multi-Level, Multi-Path Offloading for LLM Pre-training to Break the GPU Memory Wall

2025-09-05

Авторы:

Avinash Maurya, M. Mustafa Rafique, Franck Cappello, Bogdan Nicolae

## Контекст Обучение глубоких машинных сетей становится все более сложным из-за постоянного увеличения размеров глубоких нейронных сетей. Этот рост быстрее происходит, чем развитие технических решений, в частности, расширения памяти GPU. Таким образом, тренировка моделей, превышающих объем доступной памяти GPU, становится задачей, требующей разработки эффективных методов. Одним из ключевых подходов является использование многоуровневых стратегий оффлоада, включающих в себя использование различных типов памяти и дисков. Однако, несмотря на то, что такие методы могут оптимизировать частично процесс тренировки, они часто влияют на накопление оверхедов, в том числе из-за типичных ограничений в скорости доступа к памяти и диску. Данная работа ориентирована на разработку нового метода, который бы минимизировал эти проблемы и позволил эффективно обучать модели, превышающие размеры обычного GPU. ## Метод Методология MLP-Offload основывается на многоуровневой стратегии оффлоада, которая предлагает разделение данных по нескольким уровням хранения, включая CPU, GPU и внешнюю память. Технически, MLP-Offload использует оптимизированную стратегию асинхронного чтения и записи, чтобы минимизировать оверхеды в процессе обучения. Особенностью этого подхода является использование многопутевого оффлоада, которое позволяет синхронизировать работу нескольких GPU без необходимости ожидания завершения операций ввода-вывода. Также, проект использует техники кэширования и управления конкурентностью, чтобы обеспечить быструю и эффективную обработку данных. Такой метод позволяет уменьшить влияние I/O-оверхедов на общий процесс обучения, сохранив высокую производительность. ## Результаты Набор экспериментов проводился на моделях с размерами до 280 миллиардов параметров. Оценка производительности показала, что MLP-Offload уменьшает время итерации обучения в среднем в 2,5 раза по сравнению с другими технологиями, такими как ZeRO. Это достигается благодаря эффективному управлению вводом-выводом, которое минимизирует задержки в обработке данных. Также были измерены ресурсоемкость и общее влияние на систему, показав, что MLP-Offload не только улучшает скорость, но и эффективно использует доступные ресурсы. ## Значимость MLP-Offload имеет значительное значение для обучения глубоких нейронных сетей, особенно для моделей, превышающих размеры доступной GPU-памяти. Он может быть применен в сценариях с ограниченными ресурсами, включая обучение моделей для машинного обучения в облачных сервисах и высокопроизводительных вычислениях.

Annotation:

Training LLMs larger than the aggregated memory of multiple GPUs is increasingly necessary due to the faster growth of LLM sizes compared to GPU memory. To this end, multi-tier host memory or disk offloading techniques are proposed by state of art. Despite advanced asynchronous multi-tier read/write strategies, such offloading strategies result in significant I/O overheads in the critical path of training, resulting in slower iterations. To this end, we propose MLP-Offload, a novel multi-level, ...

ID: 2509.02480v1 cs.DC, cs.AI, cs.LG, H.2.0; E.2; I.2.11

arXiv PDF

Показано 11 - 14 из 14 записей