📊 Статистика дайджестов
Всего дайджестов: 34022 Добавлено сегодня: 82
Последнее обновление: сегодня
Авторы:
Gregory Bolet, Giorgis Georgakoudis, Konstantinos Parasyris, Harshitha Menon, Niranjan Hasabnis, Kirk W. Cameron, Gal Oren
Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Annotation:
Modern GPU software stacks demand developers who can anticipate performance bottlenecks before ever launching a kernel; misjudging floating-point workloads upstream can derail tuning, scheduling, and even hardware procurement. Yet despite rapid progress in code generation, today's Large Language Models (LLMs) are rarely tested on this kind of forward-looking reasoning. We close that gap with gpuFLOPBench, a benchmark that asks models to "count without running" by predicting single and double-pre...
📄 ExpertFlow: Adaptive Expert Scheduling and Memory Coordination for Efficient MoE Inference
2025-11-01Авторы:
Zixu Shen, Kexin Chu, Yifan Zhang, Dawei Xiang, Runxin Wu, Wei Zhang
Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Annotation:
The expansion of large language models is increasingly limited by the
constrained memory capacity of modern GPUs. To mitigate this,
Mixture-of-Experts (MoE) architectures activate only a small portion of
parameters during inference, significantly lowering both memory demand and
computational overhead. However, conventional MoE inference approaches, which
select active experts independently at each layer, often introduce considerable
latency because of frequent parameter transfers between host an...
Авторы:
Zongshun Zhang, Ibrahim Matta
Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Annotation:
Edge intelligent applications like VR/AR and language model based chatbots
have become widespread with the rapid expansion of IoT and mobile devices.
However, constrained edge devices often cannot serve the increasingly large and
complex deep learning (DL) models. To mitigate these challenges, researchers
have proposed optimizing and offloading partitions of DL models among user
devices, edge servers, and the cloud. In this setting, users can take advantage
of different services to support their...
Авторы:
Aymen Alsaadi, Jonathan Ash, Mikhail Titov, Matteo Turilli, Andre Merzky, Shantenu Jha, Sagar Khare
Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Annotation:
Computational protein design is experiencing a transformation driven by
AI/ML. However, the range of potential protein sequences and structures is
astronomically vast, even for moderately sized proteins. Hence, achieving
convergence between generated and predicted structures demands substantial
computational resources for sampling. The Integrated Machine-learning for
Protein Structures at Scale (IMPRESS) offers methods and advanced computing
systems for coupling AI to high-performance computing ...
Авторы:
Leszek Sliwko, Vladimir Getov
Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Annotation:
This paper presents the Accurate Google Cloud Simulator (AGOCS) - a novel
high-fidelity Cloud workload simulator based on parsing real workload traces,
which can be conveniently used on a desktop machine for day-to-day research.
Our simulation is based on real-world workload traces from a Google Cluster
with 12.5K nodes, over a period of a calendar month. The framework is able to
reveal very precise and detailed parameters of the executed jobs, tasks and
nodes as well as to provide actual resour...
Авторы:
Daniele De Sensi, Saverio Pasqualoni, Lorenzo Piarulli, Tommaso Bonato, Seydou Ba, Matteo Turisini, Jens Domke, Torsten Hoefler
## Контекст
В современных высокопроизводительных вычислительных системах (HPC), эффективность выполнения коллективных операций является ключевым фактором. Эти операции часто затрагивают большое число узлов системы, и их производительность сильно зависит от качества сетевой связи. Одна из основных проблем таких систем — ограниченная ёмкость глобальных сетевых каналов. На больших системах с ограниченным количеством глобальных связей (oversubscribed networks), где группы узлов широко подключены внутри своих подгрупп, но слабо связаны между собой через глобальные связи, эффективность операций может быть значительно снижена. Авторы статьи Bine Trees: Enhancing Collective Operations by Optimizing Communication Locality рассматривают возможности улучшения за счёт оптимизации локальности коммуникаций.
## Метод
Bine Trees представляют собой новую семейство алгоритмов для коллективных операций, основанные на нотации производных двоичных деревьев (binomial trees) и бабочек (butterflies). Эти алгоритмы используют новую парадигму, которая позволяет оптимизировать локальность коммуникаций. Разработчики вводят новую нотацию, которая позволяет строить структуры, которые обладают теми же свойствами, что и binomial trees и butterflies, но при этом существенно снижают трафик через глобальные связи. Технология Bine Trees реализована для различных коллективных операций, таких как обмен (exchange), распределение (scatter) и сбор (gather).
## Результаты
Авторы проводили эксперименты на суперкомпьютерах с такими топологиями, как Dragonfly, Dragonfly+, ограниченные fat-tree и тори. Они измерили производительность и трафик глобальных связей для Bine Trees в сравнении с классическими алгоритмами. На больших системах с ограниченными глобальными каналами, Bine Trees показали скорости, достигающие 5x ускорения и снижение глобального трафика до 33%. Эти результаты были постоянными в различных условиях, включая разные размеры векторов и количество узлов.
## Значимость
Bine Trees могут использоваться в различных областях, где требуется эффективность выполнения коллективных операций, таких как моделирование, симуляции, искусственный интеллект и вычисления в области геномики. Их особенность в улучшении локальности коммуникаций делает их особенно полезными для систем с ограниченными глобальными связями. Эта технология может существенно повысить производительность HPC-систем, сократить время выполнения задач и снизить нагрузку на глобальные каналы.
## Выводы
Bine Trees являются эффективным решением для улучшения локальности коммуникаций в коллективных операциях на больших HPC-системах. Они обеспечивают существенное улучшение производительност
Annotation:
Communication locality plays a key role in the performance of collective
operations on large HPC systems, especially on oversubscribed networks where
groups of nodes are fully connected internally but sparsely linked through
global connections. We present Bine (binomial negabinary) trees, a family of
collective algorithms that improve communication locality. Bine trees maintain
the generality of binomial trees and butterflies while cutting global-link
traffic by up to 33%. We implement eight Bin...