📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 Towards Verifiable Federated Unlearning: Framework, Challenges, and The Road Ahead

2025-10-04

Авторы:

Thanh Linh Nguyen, Marcela Tuler de Oliveira, An Braeken, Aaron Yi Ding, Quoc-Viet Pham

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Federated unlearning (FUL) enables removing the data influence from the model trained across distributed clients, upholding the right to be forgotten as mandated by privacy regulations. FUL facilitates a value exchange where clients gain privacy-preserving control over their data contributions, while service providers leverage decentralized computing and data freshness. However, this entire proposition is undermined because clients have no reliable way to verify that their data influence has bee...

ID: 2510.00833v1 cs.DC, cs.AI

arXiv PDF

📄 Accelerating LLM Inference with Precomputed Query Storage

2025-10-02

Авторы:

Jay H. Park, Youngju Cho, Choungsol Lee, Moonwook Oh, Euiseong Seo

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Large language model (LLM) inference often suffers from high latency, particularly in resource-constrained environments such as on-device or edge deployments. To address this challenge, we present StorInfer, a novel storage-assisted LLM inference system that accelerates response time by precomputing and storing predictable query-response pairs offline. When a user query semantically matches a precomputed query, StorInfer bypasses expensive GPU inference and instantly returns the stored response,...

ID: 2509.25919v1 cs.DC, cs.AI

arXiv PDF

📄 AGOCS -- Accurate Google Cloud Simulator Framework

2025-10-02

Авторы:

Leszek Sliwko, Vladimir Getov

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

This paper presents the Accurate Google Cloud Simulator (AGOCS) - a novel high-fidelity Cloud workload simulator based on parsing real workload traces, which can be conveniently used on a desktop machine for day-to-day research. Our simulation is based on real-world workload traces from a Google Cluster with 12.5K nodes, over a period of a calendar month. The framework is able to reveal very precise and detailed parameters of the executed jobs, tasks and nodes as well as to provide actual resour...

ID: 2509.26120v1 cs.DC, cs.AI, cs.PF

arXiv PDF

📄 Efficient Fine-Grained GPU Performance Modeling for Distributed Deep Learning of LLM

2025-10-01

Авторы:

Biyao Zhang, Mingkai Zheng, Debargha Ganguly, Xuecen Zhang, Vikash Singh, Vipin Chaudhary, Zhao Zhang

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Training Large Language Models(LLMs) is one of the most compute-intensive tasks in high-performance computing. Predicting end-to-end training time for multi-billion parameter models distributed across hundreds of GPUs remains challenging due to complex interactions between transformer components, parallelism strategies(data, model, pipeline, tensor), and multi-tier communication. Learned models require costly sampling, while analytical models often struggle with real-world network and hardware c...

ID: 2509.22832v1 cs.DC, cs.AI, cs.LG

arXiv PDF

📄 Scaling LLM Test-Time Compute with Mobile NPU on Smartphones

2025-10-01

Авторы:

Zixu Hao, Jianyu Wei, Tuowei Wang, Minxing Huang, Huiqiang Jiang, Shiqi Jiang, Ting Cao, Ju Ren

## Контекст С Large Language Models (LLMs) становится возможным разбираться в сложных текстовых данных, выполнять сложные задачи и даже становиться ближе к цели создания искусственного интеллекта. Однако, необходимость иметь доступ к высокопроизводительным серверным системам всегда препятствовала широкому распространению LLMs в мобильных приложениях. Это связано с тем, что традиционные мобильные устройства имели ограниченную мощность вычислений и ограниченное количество памяти, что не позволяло эффективно работать с LLMs. Недавно, с появлением мобильных Neural Processing Units (NPUs), возникло возможность использовать эти ресурсы для улучшения производительности LLMs на мобильных устройствах. Тем не менее, у NPUs существуют свои проблемы, такие как неэффективность при обработке сложных вычислений и несовместимость с требованиями к высокому качеству вычислений. В этой статье мы рассматриваем способы увеличения эффективности LLMs на мобильных NPUs, которые позволяют значительно повысить производительность и уменьшить затраты ресурсов. ## Метод Мы предлагаем использовать **тест-тайм-скейлинг (Test-Time Scaling)**, который предполагает распределение задач LLMs между мобильными NPUs во время выполнения, чтобы оптимально использовать ресурсы. Наша методология включает два основных компонента: **тиляцию (tiling)** и **LUT-решения (LUT-based solutions)**. **Тиляция (tiling)** — это метод, при котором вычисления в целом модели преобразуются в более мелкие части (тили), чтобы мобильные NPUs могли их обрабатывать более эффективно. **LUT-решения (LUT-based solutions)** используются для замены сложных вычислений (например, функции Softmax) на более простые, которые могут быть более эффективно обработаны мобильными NPUs. Мы также разработали **схему групповой квантовки (group quantization scheme)**, чтобы уменьшить размер данных, при этом сохраняя точность вычислений. Эти техники позволяют использовать мобильные NPUs для эффективного выполнения LLMs с меньшим расходом ресурсов. ## Результаты Мы провели эксперименты на мобильных устройствах с Qualcomm Snapdragon NPUs, включая Snapdragon 888 и Snapdragon 8 Gen 1. Мы использовали несколько моделей LLMs, включая BERT и GPT-2, и экспериментировали с разными тилями и квантованием. Мы получили следующие результаты: на Snapdragon 888, мобильная модель LLM, использующая нашу схему, показала **скорость выполнения, которая была 19.0 раз быстрее**, чем без тиляции, и **2.2 раз быстрее** при использовании квантования Softmax. Эти результаты показывают, что мобильные NPUs могут не только увеличить производительность, но и повысить точность LLMs. Кроме того, мы показали, что использование тиляции и квантования позволяет меньшим моделям LLMs соответствовать или даже превосхо

Annotation:

Deploying Large Language Models (LLMs) on mobile devices faces the challenge of insufficient performance in smaller models and excessive resource consumption in larger ones. This paper highlights that mobile Neural Processing Units (NPUs) have underutilized computational resources, particularly their matrix multiplication units, during typical LLM inference. To leverage this wasted compute capacity, we propose applying parallel test-time scaling techniques on mobile NPUs to enhance the performan...

ID: 2509.23324v1 cs.DC, cs.AI

arXiv PDF

📄 Enhancing Communication Efficiency in FL with Adaptive Gradient Quantization and Communication Frequency Optimization

2025-10-01

Авторы:

Asadullah Tariq, Tariq Qayyum, Mohamed Adel Serhani, Farag Sallabi, Ikbal Taleb, Ezedin S. Barka

## Контекст Federated Learning (FL) представляет собой метод обучения моделей с поддержкой нескольких участников, где устройства принимают участие в обучении модели без передачи личных данных на сервер. Это решение позволяет улучшить защиту данных и решить проблему вычислительных ресурсов. Однако FL сталкивается с ограничениями, одним из ключевых из которых является высокий объем обмена данными, который будет требоваться для периодических обновлений моделей между устройствами и сервером. Это препятствует развертыванию FL в сетях с ограниченными ресурсами. Поэтому, в условиях доступа к данным в реальных сетях, необходимо разработать методы, которые позволяют уменьшить объем обмена данными, оставив модель эффективной и точной. ## Метод В этой работе мы предлагаем улучшить эффективность FL с помощью трех основных моделей. Во-первых, мы предлагаем **Adaptive Feature-Elimination Strategy**, которая удаляет менее важные фичи, оставляя те, которые действительно влияют на подготовленную модель. Во-вторых, **Adaptive Gradient Innovation and Error Sensitivity-Based Quantization**, которая динамически подстраивает уровень компрессии градиентов, чтобы сохранять только собственные инновации градиента. В-третьих, **Communication Frequency Optimization**, которая стремится оптимизировать частоту обмена данными между устройствами и сервером. Эти три модели, применяемые в сочетании, нацелены на уменьшение коммуникационного накладных расходов, при этом сохраняя точность и качество модели. ## Результаты Мы провели широкие эксперименты для оценки нашей модели. Мы сопоставили ее с основными методами, оценив качество модели по следующим показателям: точность, потери и вырождение. Изменения в коммуникационной частоте и воздействии новых методов на эти различные показатели были зафиксированы. Эксперименты показали, что наша модель обеспечивает высокую эффективность коммуникации, сохраняя эффективность и точность, что делает ее привлекательной для применения в сетях с ограниченными ресурсами. ## Значимость Наша модель может применяться в различных областях, таких как медицина, мобильные системы, и вычисления в реальном времени. Она делает FL более эффективной и доступной для развертывания в реальных сетях. Благодаря нашей модели, можно улучшить скорость обучения и сократить расходы на связь, что делает FL более привлекательным для использования в реальных условиях, особенно в сетях с ограниченными ресурсами. ## Выводы Мы привносили новую стратегию для улучшения коммуникационной эффективности в FL. Модель **Adaptive Feature-Elimination Strategy**, **Adaptive Gradient Innovation and Error Sensitivity-Based Quantization** и **Communication Frequency Optimization** позволяют эффективно снизить потери в модели, оставив основные важные элементы. В будущем мы намереваемся расширить эти методы, учитывая более слож

Annotation:

Federated Learning (FL) enables participant devices to collaboratively train deep learning models without sharing their data with the server or other devices, effectively addressing data privacy and computational concerns. However, FL faces a major bottleneck due to high communication overhead from frequent model updates between devices and the server, limiting deployment in resource-constrained wireless networks. In this paper, we propose a three-fold strategy. Firstly, an Adaptive Feature-Elim...

ID: 2509.23419v1 cs.DC, cs.AI

arXiv PDF

📄 AdaPtis: Reducing Pipeline Bubbles with Adaptive Pipeline Parallelism on Heterogeneous Models

2025-10-01

Авторы:

Jihu Guo, Tenghui Ma, Wei Gao, Peng Sun, Jiaxing Li, Xun Chen, Yuyang Jin, Dahua Lin

## Контекст Повышение эффективности обучения больших языковых моделей (LLM) является важной задачей в искусственном интеллекте. Одним из ключевых подходов для решения этой задачи является pipeline parallelism, который позволяет распределять вычислительные задачи по нескольким узлам. Однако, при росте сложности моделей и их разнообразии возникают проблемы, такие как "pipeline bubbles" (пустые промежутки во времени, когда некоторые узлы остаются неактивными). Эти проблемы снижают эффективность процесса обучения. Традиционные подходы к решению этой проблемы ограничиваются исключительно оптимизацией графа модели или резервированием ресурсов, не учитывая целостную оптимизацию моделей, размещения и загрузки. Это приводит к ограниченным улучшениям производительности или даже к ее ухудшению. Наша цель — разработать систему, которая адаптивно регулирует процессы параллелизма, сочетая модельное разделение, местонахождение и загрузку. ## Метод Мы предлагаем AdaPtis, систему для обучения LLMs, основанную на адаптивном pipeline parallelism. AdaPtis включает в себя три основных компонента. Во-первых, **pipeline performance model**, который строится на основе расчетов узлов, сетевой задержки и параллельных вычислений. Этот модельный подход позволяет точно оценивать производительность и характеристики работы системы. Во-вторых, **joint optimization framework**, которое одновременно координирует моделирование, размещение и загрузку. Это позволяет максимизировать эффективность и сбалансировать нагрузку. В-третьих, мы разработали **unified pipeline executor**, который позволяет выполнять разные стратегии параллелизма в единой системе. ## Результаты Мы провели эксперименты на различных моделях языковых моделей, включая BERT, GPT и другие. Обучение проводилось на различных масштабах, от небольших моделей до масштабных LLM. У нас были сравнения с Megatron-LM I-1F1B, и результаты показали существенные улучшения. Например, на модели GPT-3 с 175 миллиардов параметров мы достигли скоростного прироста 1.42x (с максимальным приростом 2.14x). Эти результаты свидетельствуют о том, что AdaPtis эффективно справляется с тем, чтобы устранить "pipeline bubbles" и оптимизировать целостный процесс обучения. ## Значимость Предложенная система AdaPtis имеет широкое применение в обучении больших моделей интеллектуальных систем. Она улучшает производительность, сокращает время обучения и уменьшает затраты ресурсов. Одним из основных преимуществ является комбинация трех ключевых аспектов: моделирования, размещения и загрузки, что обеспечивает более эффективное использование ресурсов. Мы видим потенциал AdaPtis в улучшении обучения LLMs в различных сценариях, в то

Annotation:

Pipeline parallelism is widely used to train large language models (LLMs). However, increasing heterogeneity in model architectures exacerbates pipeline bubbles, thereby reducing training efficiency. Existing approaches overlook the co-optimization of model partition, model placement, and workload scheduling, resulting in limited efficiency improvement or even performance degradation. To respond, we propose AdaPtis, an LLM training system that supports adaptive pipeline parallelism. First, we de...

ID: 2509.23722v1 cs.DC, cs.AI

arXiv PDF

📄 From Edge to HPC: Investigating Cross-Facility Data Streaming Architectures

2025-10-01

Авторы:

Anjus George, Michael Brim, Christopher Zimmer, David Rogers, Sarp Oral, Zach Mayes

## Контекст Область исследования связана с разработкой и оценкой архитектур для передачи данных между различными сервисами и центрами вычислений (facilities). Эта тема крайне важна для высокопроизводительных вычислений (HPC) и искусственного интеллекта (AI), где требуется эффективная передача больших объемов данных между различными серверами и центрами. Наибольшие проблемы возникают при передаче данных в реальном времени, так как для высокой производительности требуется минимизировать задержки и максимизировать пропускную способность системы. Существуют различные архитектуры для решения этой проблемы, но пока что не определено, какая из них лучше подходит для конкретных задач. Наша мотивация заключается в сравнении трех различных архитектур передачи данных в реальном времени, чтобы определить их преимущества и недостатки. ## Метод Мы рассматриваем три различных архитектуры: **Direct Streaming (DTS)**, **Proxied Streaming (PRS)** и **Managed Service Streaming (MSS)**. Для каждой архитектуры описывается архитектурный подход и способ реализации. Используется **Data Streaming to HPC (DS2HPC)**, архитектурный фреймворк, который помогает реализовать эти архитектуры на практике. Также мы используем **SciStream**, инструмент для передачи данных между памятью и процессором, который подходит для высокопроизводительных вычислений. Эти архитектуры реализованы на **Advanced Computing Ecosystem (ACE)**, системе вычислений в Oak Ridge Leadership Computing Facility (OLCF). Мы проводим эксперименты с разными нагружающими рабочими процессами (workloads), которые позволяют измерить производительность каждой архитектуры в разных условиях. ## Результаты Мы проводили симуляционные эксперименты для каждой архитектуры, измеряя такие показатели, как пропускная способность (throughput), задержка (round-trip time) и накладные расходы (overhead). Мы использовали три различных типа рабочих процессов, которые отражают различные мотивы взаимодействия в AI-HPC. Результаты показывают, что **Direct Streaming (DTS)** предоставляет минимальные задержки и наибольшую пропускную способность, что делает его наиболее эффективным в плане производительности. **Managed Service Streaming (MSS)** лучше подходит для масштабируемости и удобства развертывания, но он имеет большие затраты времени и ресурсов. **Proxied Streaming (PRS)** находится посередине, обеспечивая большую масштабируемость и высокую производительность, однако в некоторых случаях он не может достичь производительности DTS. ## Значимость Эти исследования имеют значение для нескольких областей, включая вычисления на границах (edge computing), высокопроизводительные вычисления (HPC) и искусственный интеллект (AI). Мы показали, что **Direct Streaming** является лучшим вариантом для ситуаций, где нужно максимальное пре

Annotation:

In this paper, we investigate three cross-facility data streaming architectures, Direct Streaming (DTS), Proxied Streaming (PRS), and Managed Service Streaming (MSS). We examine their architectural variations in data flow paths and deployment feasibility, and detail their implementation using the Data Streaming to HPC (DS2HPC) architectural framework and the SciStream memory-to-memory streaming toolkit on the production-grade Advanced Computing Ecosystem (ACE) infrastructure at Oak Ridge Leaders...

ID: 2509.24030v1 cs.DC, cs.AI, cs.SE

arXiv PDF

📄 Data-Centric Elastic Pipeline Parallelism for Efficient Long-Context LLM Training

2025-09-27

Авторы:

Shiju Wang, Yujie Wang, Ao Sun, Fangcheng Fu, Zijian Zhu, Bin Cui, Xu Han, Kaisheng Ma

## Контекст Длинный контекст (long context) является ключевой задачей для расширения возможностей Large Language Models (LLM). Однако обучение таких моделей сталкивается с рядом проблем, включая высокую стоимость обмена данными при использовании существующих схем тренировки, таких как sequence parallelism. Другие подходы, такие как pipeline parallelism (PP), уменьшают накладные расходы на связь, но его эффективность сильно зависит от тонкости разбиения задач (partitioning granularity). Большинство существующих систем оптимизируют PP статически, не учитывая разнообразие длин последовательностей, что приводит к неэффективной работе и неэффективному использованию ресурсов. Этот контекст побудил разработать Elastic Pipeline Parallelism (EPP), который адаптирует разбиение задач на token-level и batch-level PP, чтобы соответствовать характеристикам ресурсов и рабочей нагрузки. Такой подход может повысить эффективность обучения LLM в сценариях с длинным контекстом. ## Метод Методология EPP основывается на совмещении token-level PP с batch-level PP для адаптивного управления длинными последовательностями. Используется InfiniPipe — распределенная система тренировки, оснащенная: 1. **Resource-Aware and Workload-Balanced Sequence Processor**, который разбивает длинные последовательности и упаковывает короткие, чтобы максимально эффективно использовать ресурсы. 2. **Stage-Aware Chunk-Level Adaptive Checkpointing**, механизм, который оптимизирует pipeline schedule и gradient checkpointing, уменьшая память и улучшая скорость. Эта архитектура позволяет InfiniPipe адаптироваться к различным ситуациям, совмещая тонкую оптимизацию и отказоустойчивость. ## Результаты Эксперименты проводились на реальных длинных контекстах с разными характеристиками нагрузки и ресурсами. Использовались данные с большим разбросом длин последовательностей, чтобы подчеркнуть проблему workload imbalance в статических схемах. Результаты показали: - 1.69x быстрее выполнения по сравнению со стандартными системами. - значительное снижение memory overhead благодаря адаптивному распределению задач. - улучшение параллельной производительности благодаря гибкой схеме распаковки и пакетирования. Эти результаты свидетельствуют о значительном повышении эффективности и универсальности EPP в разных условиях. ## Значимость ИнфиниПипе демонстрирует потенциал для эффективного обучения LLM в сценариях с длинными контекстами. Он может применяться в облачных сервисах, NLP-системах и других приложениях, где требуется работа с очень длинными данными. Ключевые преимущества: - **Эффективность**: 1.69x быстрее, чем существующие системы. - **Универсальность**: адаптируется к разным условиям ресурсов и нагрузки. - **Применение**: может стать ключевым ин

Annotation:

Long context training is crucial for LLM's context extension. Existing schemes, such as sequence parallelism, incur substantial communication overhead. Pipeline parallelism (PP) reduces this cost, but its effectiveness hinges on partitioning granularity. Batch-level PP dividing input samples exhibits high memory consumption in long-context scenario, whereas token-level PP splitting sequences into slices alleviates memory overhead but may incur hardware under-utilization. This trade-off motivates...

ID: 2509.21275v1 cs.DC, cs.AI

arXiv PDF

📄 Experience Deploying Containerized GenAI Services at an HPC Center

2025-09-26

Авторы:

Angel M. Beltre, Jeff Ogden, Kevin Pedretti

## Контекст Область генерирующего искусственного интеллекта (Generative Artificial Intelligence, GenAI) находится в сердце современных технологических развитий, предлагая мощные средства для решения сложных задач в области глубокого обучения, текстового понимания и прогнозирования. GenAI применяется в различных сферах, включая поисковые системы, медицинское образование, финансовые рынки и искусственные телесных чувств. Однако развертывание GenAI-сервисов в средах высокопроизводительных вычислений (HPC) сталкивается с рядом проблем, такими как несовместимость сред, проблемы масштабирования и сложность интеграции. Хотя GenAI-сервисы часто развертываются в облачных средах, значительно меньше информации доступна по их развертыванию в HPC-центрах, где требуется высокая производительность и реплицируемость. Это создает мотивацию для исследования, в частности, для создания контейнеризированных GenAI-сервисов, которые могут быть эффективно развернуты в HPC-центрах. ## Метод Развертывание GenAI-сервисов в HPC-центре было основано на создании унифицированной архитектуры, объединяющей HPC и Kubernetes платформы. Мы использовали контейнеризацию для изоляции облачных и HPC-компонентов, обеспечив их интеграцию через веб-API. Наша стратегия включала интеграцию существующих HPC-ресурсов с Kubernetes, что позволило сократить задержки и увеличить вычислительную эффективность. Мы использовали контейнерные среды, такие как Docker и CRI-O, для запуска инференс-сервисов, таких как vLLM, и для обеспечения реплицированности. Мы также интегрировали объектное хранилище, такое как MinIO, для управления векторными данными. Эта структура позволила обеспечить простоту управления, эффективность и надежность в развертывании GenAI-сервисов. ## Результаты Мы провели эксперименты с развертыванием GenAI-сервисов, включая одно из самых популярных языковых моделей - Llama Large Language Model (LLM). Мы запускали этот модельный репозиторий как контейнеризованный образ, используя vLLM на HPC-платформе и Kubernetes. Данные эксперимента были загружены в HPC-хранилище MinIO, и мы оценивали производительность и надежность развертывания. Результаты показали, что контейнеризация обеспечивает высокую модульность и реплицируемость, уменьшая время обучения и развертывания. Мы также привели сравнение между Kubernetes и HPC-платформами, показав, что Kubernetes может быть использован для упрощения развертывания и управления GenAI-сервисами. ## Значимость Наша работа имеет значительное значение для области вычислений, особенно в контексте HPC-центров. Мы показали, что контейнеризация может быть эффективно использована для развертывания GenAI-сервисов в

Annotation:

Generative Artificial Intelligence (GenAI) applications are built from specialized components -- inference servers, object storage, vector and graph databases, and user interfaces -- interconnected via web-based APIs. While these components are often containerized and deployed in cloud environments, such capabilities are still emerging at High-Performance Computing (HPC) centers. In this paper, we share our experience deploying GenAI workloads within an established HPC center, discussing the int...

ID: 2509.20603v1 cs.DC, cs.AI, cs.AR, cs.ET, cs.LG

arXiv PDF

Показано 51 - 60 из 86 записей