📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня
Авторы:

Gregory Bolet, Giorgis Georgakoudis, Konstantinos Parasyris, Harshitha Menon, Niranjan Hasabnis, Kirk W. Cameron, Gal Oren

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Annotation:
Modern GPU software stacks demand developers who can anticipate performance bottlenecks before ever launching a kernel; misjudging floating-point workloads upstream can derail tuning, scheduling, and even hardware procurement. Yet despite rapid progress in code generation, today's Large Language Models (LLMs) are rarely tested on this kind of forward-looking reasoning. We close that gap with gpuFLOPBench, a benchmark that asks models to "count without running" by predicting single and double-pre...
ID: 2512.04355v1 cs.DC, cs.AI, cs.PF
Авторы:

Zixu Shen, Kexin Chu, Yifan Zhang, Dawei Xiang, Runxin Wu, Wei Zhang

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Annotation:
The expansion of large language models is increasingly limited by the constrained memory capacity of modern GPUs. To mitigate this, Mixture-of-Experts (MoE) architectures activate only a small portion of parameters during inference, significantly lowering both memory demand and computational overhead. However, conventional MoE inference approaches, which select active experts independently at each layer, often introduce considerable latency because of frequent parameter transfers between host an...
ID: 2510.26730v1 cs.DC, cs.AI, cs.PF
Авторы:

Zongshun Zhang, Ibrahim Matta

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Annotation:
Edge intelligent applications like VR/AR and language model based chatbots have become widespread with the rapid expansion of IoT and mobile devices. However, constrained edge devices often cannot serve the increasingly large and complex deep learning (DL) models. To mitigate these challenges, researchers have proposed optimizing and offloading partitions of DL models among user devices, edge servers, and the cloud. In this setting, users can take advantage of different services to support their...
ID: 2510.22909v1 cs.DC, cs.AI, cs.PF
Авторы:

Aymen Alsaadi, Jonathan Ash, Mikhail Titov, Matteo Turilli, Andre Merzky, Shantenu Jha, Sagar Khare

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Annotation:
Computational protein design is experiencing a transformation driven by AI/ML. However, the range of potential protein sequences and structures is astronomically vast, even for moderately sized proteins. Hence, achieving convergence between generated and predicted structures demands substantial computational resources for sampling. The Integrated Machine-learning for Protein Structures at Scale (IMPRESS) offers methods and advanced computing systems for coupling AI to high-performance computing ...
ID: 2510.06396v1 cs.DC, cs.AI, cs.PF, cs.SE
Авторы:

Leszek Sliwko, Vladimir Getov

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Annotation:
This paper presents the Accurate Google Cloud Simulator (AGOCS) - a novel high-fidelity Cloud workload simulator based on parsing real workload traces, which can be conveniently used on a desktop machine for day-to-day research. Our simulation is based on real-world workload traces from a Google Cluster with 12.5K nodes, over a period of a calendar month. The framework is able to reveal very precise and detailed parameters of the executed jobs, tasks and nodes as well as to provide actual resour...
ID: 2509.26120v1 cs.DC, cs.AI, cs.PF
Авторы:

Daniele De Sensi, Saverio Pasqualoni, Lorenzo Piarulli, Tommaso Bonato, Seydou Ba, Matteo Turisini, Jens Domke, Torsten Hoefler

## Контекст В современных высокопроизводительных вычислительных системах (HPC), эффективность выполнения коллективных операций является ключевым фактором. Эти операции часто затрагивают большое число узлов системы, и их производительность сильно зависит от качества сетевой связи. Одна из основных проблем таких систем — ограниченная ёмкость глобальных сетевых каналов. На больших системах с ограниченным количеством глобальных связей (oversubscribed networks), где группы узлов широко подключены внутри своих подгрупп, но слабо связаны между собой через глобальные связи, эффективность операций может быть значительно снижена. Авторы статьи Bine Trees: Enhancing Collective Operations by Optimizing Communication Locality рассматривают возможности улучшения за счёт оптимизации локальности коммуникаций. ## Метод Bine Trees представляют собой новую семейство алгоритмов для коллективных операций, основанные на нотации производных двоичных деревьев (binomial trees) и бабочек (butterflies). Эти алгоритмы используют новую парадигму, которая позволяет оптимизировать локальность коммуникаций. Разработчики вводят новую нотацию, которая позволяет строить структуры, которые обладают теми же свойствами, что и binomial trees и butterflies, но при этом существенно снижают трафик через глобальные связи. Технология Bine Trees реализована для различных коллективных операций, таких как обмен (exchange), распределение (scatter) и сбор (gather). ## Результаты Авторы проводили эксперименты на суперкомпьютерах с такими топологиями, как Dragonfly, Dragonfly+, ограниченные fat-tree и тори. Они измерили производительность и трафик глобальных связей для Bine Trees в сравнении с классическими алгоритмами. На больших системах с ограниченными глобальными каналами, Bine Trees показали скорости, достигающие 5x ускорения и снижение глобального трафика до 33%. Эти результаты были постоянными в различных условиях, включая разные размеры векторов и количество узлов. ## Значимость Bine Trees могут использоваться в различных областях, где требуется эффективность выполнения коллективных операций, таких как моделирование, симуляции, искусственный интеллект и вычисления в области геномики. Их особенность в улучшении локальности коммуникаций делает их особенно полезными для систем с ограниченными глобальными связями. Эта технология может существенно повысить производительность HPC-систем, сократить время выполнения задач и снизить нагрузку на глобальные каналы. ## Выводы Bine Trees являются эффективным решением для улучшения локальности коммуникаций в коллективных операциях на больших HPC-системах. Они обеспечивают существенное улучшение производительност
Annotation:
Communication locality plays a key role in the performance of collective operations on large HPC systems, especially on oversubscribed networks where groups of nodes are fully connected internally but sparsely linked through global connections. We present Bine (binomial negabinary) trees, a family of collective algorithms that improve communication locality. Bine trees maintain the generality of binomial trees and butterflies while cutting global-link traffic by up to 33%. We implement eight Bin...
ID: 2508.17311v1 cs.DC, cs.AI, cs.PF, C.2.4; C.5.1