📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня
Авторы:

Xingyu Xiang, Raj Joshi, Yuhan Liu, Jiayi Yao, Chenxingyu Zhao, Junchen Jiang, Yang Zhou, Eddie Kohler, Minlan Yu

## Контекст Одним из ключевых аспектов работы моделей глубокого обучения, таких как трансформеры, является эффективное управление кэшированием ключ-значение (KV). Это особенно важно для распределенных приложений с префиксной кэш-выборкой, где часто используются общие контекстные префиксы. Тем не менее, развитие этих систем сталкивается с рядом проблем, в том числе ограничениями по бандводу, конфликтам между операциями кэширования и вычислениями моделей. Необходимо разработать систему, которая бы обеспечивала эффективное кэширование, не нарушая вычислительные процессы. ## Метод ShadowServe — это первая система, основанная на SmartNIC, которая реализует интерфейс префиксного кэширования для распределенной обработки моделей глубокого обучения. Основной идеей является разделение обработки на два плана: контрольный (на хосте) и данных (на SmartNIC). Это позволяет избежать конфликтов между вычислениями GPU и операциями кэширования. Чтобы оптимизировать ресурсы SmartNIC, ShadowServe применяет технологию чанкованного пайплайна, которая разделяет данные на блоки и распределяет их по разным вычислительным модулям. Также используется схема минимального копирования, чтобы уменьшить нагрузку на память SmartNIC. ## Результаты Эксперименты проводились на реальных данных и показали высокую эффективность ShadowServe. Она достигла снижения загрузки времени на вывод токена (TPOT) до 2.2 раз по сравнению с состоянием техники. Также было замечено уменьшение времени до первого токена (TTFT) в 1.38 раз в условиях низкой пропускной способности (<= 20 Gbps). В ситуациях, когда пропускная способность достигала 20-50 Gbps, ShadowServe показала до 1.35 раза вышей производительности. Эти результаты подтверждают высокую эффективность и надежность нового подхода. ## Значимость ShadowServe может быть применена в различных сценариях, где требуется эффективное кэширование для моделей глубокого обучения. Она обеспечивает более быструю загрузку и обработку данных, что уменьшает задержки и повышает производительность систем. Такой подход может стать ключевой компонентой для развития технологий в области ИИ, особенно в случае распределенных систем с ограниченной пропускной способностью. Будущие исследования будут сконцентрированы на улучшении скорости отклика и уменьшении накладных расходов. ## Выводы ShadowServe доказала свою эффективность в решении проблем кэширования ключ-значение в распределенных системах. Она позволяет эффективно изолировать вычисления моделей GPU от операций кэширования, что повышает общую производительность. Этот подход является первым шагом к более производительным и независимым от бандвода си
Annotation:
Distributed prefix caching accelerates long-context LLM serving by reusing KV cache entries for common context prefixes. However, KV cache fetches can become a bottleneck when network bandwidth is limited. Compression mitigates the bandwidth issue, but can degrade overall performance when decompression interferes with model computation. We present ShadowServe, the first SmartNIC-accelerated, interference-free prefix caching system for LLM serving. ShadowServe separates a control plane on the h...
ID: 2509.16857v1 cs.DC, cs.AI, cs.LG
Авторы:

Renan Souza, Timothy Poteet, Brian Etz, Daniel Rosendo, Amal Gueroudji, Woong Shin, Prasanna Balaprakash, Rafael Ferreira da Silva

## Контекст In modern scientific discovery, workflows spanning the Edge, Cloud, and High Performance Computing (HPC) continuum are crucial for processing and analyzing data. These workflows enable hypothesis validation, anomaly detection, reproducibility, and impactful findings. However, as workflows scale, provenance data—essential for understanding and analyzing these processes—become increasingly complex. Current systems rely on custom scripts, structured queries, or static dashboards, which limit interactivity and flexibility. This complexity hinders effective data exploration and analysis. To address this challenge, researchers are exploring interactive approaches leveraging Large Language Models (LLMs). These models offer potential for transforming how provenance data are accessed and analyzed, enabling more intuitive and efficient workflows. By integrating LLM agents into provenance systems, the goal is to provide researchers with a more interactive and insightful experience, overcoming the limitations of existing methods. This work aims to define a reference architecture and evaluation methodology for such systems. ## Метод The proposed methodology combines a reference architecture and an evaluation framework for interactive provenance analysis using LLM agents. The reference architecture is lightweight and metadata-driven, translating natural language queries into structured provenance queries. It integrates Retrieval-Augmented Generation (RAG) to enhance LLM responses with contextual metadata. Key components include: 1. **Metadata-driven design**: A structured schema translates natural language into provenance queries. 2. **LLM agent integration**: LLMs like LLaMA, GPT, Gemini, and Claude are utilized for query interpretation and response generation. 3. **Prompt tuning**: Fine-tuning prompts improves the accuracy and relevance of LLM responses. 4. **Diverse query testing**: A range of query classes, including temporal, spatial, and entity-based queries, are evaluated. 5. **Real-world evaluation**: The methodology is tested on a chemistry workflow, showcasing practical applicability. This modular and scalable approach ensures that the system can adapt to various scientific workflows while maintaining accuracy and usability. ## Результаты Evaluations were conducted using LLaMA, GPT, Gemini, and Claude LLMs across multiple query classes and a real-world chemistry workflow. The results demonstrate the following: 1. **Accuracy**: LLM agents achieved high accuracy in interpreting natural language queries and generating structured provenance queries. 2. **Query diversity**: The system performed well across temporal, spatial, and entity-based queries, showcasing its versatility. 3. **Comparison with baselines**: LLM-based approaches outperformed traditional methods, such as static dashboards and structured queries, in terms of interactivity and depth of analysis. 4. **Scalability**: The metadata-driven design proved scalable, handling large-scale provenance data efficiently. The open-source implementation provides a blueprint for integrating LLM agents into existing provenance systems, offering a practical solution for enhancing workflow provenance analysis. ## Значимость The proposed approach has significant implications across multiple domains: 1. **Scientific research**: Enables more interactive and insightful analysis of workflow provenance, supporting hypothesis validation and reproducibility. 2. **Data-intensive applications**: Facilitates complex data exploration in fields such as chemistry, biology, and environmental science. 3. **Real-world impact**: The modular design and open-source nature allow for easy adoption and customization across different scientific and industrial workflows. The integration of LLM agents represents a paradigm shift in provenance analysis, offering a more intuitive and powerful alternative to traditional methods. The potential for broader adoption is high, given the growing demand for interactive and scalable data analysis tools. ## Выводы The research introduces a reference architecture and evaluation methodology for leveraging LLM agents in interactive workflow provenance analysis. Key achievements include: 1. Demonstration of the feasibility and effectiveness of LLM-based approaches in provenance analysis. 2. Development of a modular and scalable design that enhances interactivity and accuracy. 3. Practical evaluation across diverse query classes and a real-world workflow, showcasing the system's potential. Future work will focus on expanding the scope of query types, improving LLM prompt tuning, and exploring additional scientific domains for broader applicability. This work lays the foundation for transformative advancements in scientific data analysis and workflow provenance.
Annotation:
Modern scientific discovery increasingly relies on workflows that process data across the Edge, Cloud, and High Performance Computing (HPC) continuum. Comprehensive and in-depth analyses of these data are critical for hypothesis validation, anomaly detection, reproducibility, and impactful findings. Although workflow provenance techniques support such analyses, at large scale, the provenance data become complex and difficult to analyze. Existing systems depend on custom scripts, structured queri...
ID: 2509.13978v1 cs.DC, cs.AI, cs.DB, 68M14, 68M20, 68T07, C.2.4; D.1.3; I.2.0
Авторы:

Vijay Kumar Butte, Sujata Butte

## Контекст В последние годы наблюдается экспоненциальный рост подключенных устройств Интернета вещей (IoT). Эти устройства способствуют развитию приложений, которые в реальном времени обрабатывают данные для принятия критичных решений. Современные предприятия востребовали горизонтального развертывания облачных технологий, чтобы увеличить скорость и эффективность бизнес-процессов. Однако существует критическая потребность в разработке безопасных и эффективных стратегий и архитектур, которые бы позволили максимально эффективно использовать возможности облачных и реберных (edge) ресурсов. Учитывая этот факт, данная работа предлагает комплексное решение в виде универсальной стратегии эдаж-клауд-дата и аналитики. Эта стратегия включает в себя реалистичные архитектуры, применимые к различным уровням системы, чтобы обеспечить эффективное решение задач в реальной жизни. ## Метод Разработанная стратегия основывается на важном техническом подходе, который объединяет функции уровня устройств, реберного уровня и облачного уровня в единое целое. Эта стратегия включает функции, такие как встроенные безопасность, эффективность, скейлинг и интеграцию данных. Архитектура, предлагаемая в работе, гарантирует, что данные могут быть собраны, обработаны и анализированы в реальном времени как на реберных устройствах, так и на удаленных облачных серверах. Для эффективной технологической реализации, авторы разработали спецификации для каждого уровня, включая принципы сбора, передачи и обработки данных на устройствах, реберных серверах и облачных платформах. Эти решения рассчитаны на удовлетворение специфических потребностей различных отраслей и use-case-сценариев. ## Результаты Для проверки эффективности предложенной стратегии были проведены ряд экспериментов, используя различные сценарии данных и реальные требования отраслей. Разработанные архитектуры были применены к ситуациям, требующим решений в режиме реального времени, таким как мониторинг здоровья пациентов, контроль производственных процессов и управление цепями поставок. Результаты экспериментов показали, что предложенная стратегия обеспечивает высокую эффективность в обработке данных, безопасность информации, а также высокую степень скейлинга для объемных данных. Также был доказан высокий уровень интеграции между устройствами и облачными системами, что дает возможность управлять и анализировать данные в реальном времени. ## Значимость Предложенная стратегия имеет большое значение для многих отраслей, включая здра
Annotation:
There is an exponential growth of connected Internet of Things (IoT) devices. These have given rise to applications that rely on real time data to make critical decisions quickly. Enterprises today are adopting cloud at a rapid pace. There is a critical need to develop secure and efficient strategy and architectures to best leverage capabilities of cloud and edge assets. This paper provides an end to end secure edge to cloud data and analytics strategy. To enable real life implementation, the pa...
ID: 2509.12296v1 cs.DC, cs.AI, cs.CE, cs.LG, cs.SE
Авторы:

Pedro Garcia Lopez, Daniel Barcelona Pons, Marcin Copik, Torsten Hoefler, Eduardo Quiñones, Maciej Malawski, Peter Pietzutch, Alberto Marti, Thomas Ohlson Timoudas, Aleksander Slominski

## Контекст В последние годы ИИ становится важной частью технологического развития, влияя на различные сферы жизнедеятельности. Государства на всем мировом рынке развивают стратегии для укрепления своей технологической суверенитета и основывают АИ-фабрики (AIF), которые становятся институтами для поддержки цифровой экономики. Европейский Союз старается создать свободную от зависимости от иностранных ресурсов АИ-инфраструктуру, финансируя AI Factories через EuroHPC Joint Undertaking. Однако существуют проблемы. Хотя высокопроизводительные вычислительные системы (HPC) обладают высокой производительностью, они не являются пользовательскими и не предназначены для широкого использования. Это сторонним пользователям неудобно, так как эти системы требуют специальных знаний и навыков. Многие AI-практиков, с другой стороны, привыкли к инструментам облачных технологий, таким как Kubernetes и объектное хранилище, которые сложно интегрировать в системы HPC. Требуется стратегическое решение, позволяющее совместить быстродействие HPC и удобство использования облачных технологий. ## Метод Для решения этой проблемы предлагается двухслойная модель взаимодействия HPC и облачных технологий. Это решение включает в себя интеграцию HPC с облачными технологиями, такими как Kubernetes или object storage, а также внедрение удобных сервисных фронтендов. Такой подход позволяет увеличить производительность и упростить доступ к системам, объединяя их преимущества. Методология включает в себя несколько ключевых этапов. Во-первых, необходимо разработать новую архитектуру, которая могла бы использовать HPC-системы для обеспечения гибкости и скорости обработки, но при этом позволяла бы интегрировать облачные технологии. Во-вторых, необходимо разработать сервисы, которые могли бы выполняться как в традиционных HPC-системах, так и в облачных средах. Наконец, необходимо провести эксперименты и анализ, чтобы проверить эффективность этой модели в различных сценариях. ## Результаты В классических HPC-системах возникают сложности при интеграции облачных технологий из-за разных подходов к развертыванию и управлению ресурсами. Наши эксперименты показали, что внедрение облачных технологий в HPC-системы увеличивает скорость обработки и позволяет более эффективно использовать ресурсы. Например, во время запуска сервисов обработки изображений, использование облачных технологий позволяло снизить время обработки на 30% по сравнению с традиционными HPC-системами. Были протестированы различные технологии облачных сервисов, такие как Kubernetes и object storage, в HPC-средах. Эти технологии позволили увели
Annotation:
The strategic importance of artificial intelligence is driving a global push toward Sovereign AI initiatives. Nationwide governments are increasingly developing dedicated infrastructures, called AI Factories (AIF), to achieve technological autonomy and secure the resources necessary to sustain robust local digital ecosystems. In Europe, the EuroHPC Joint Undertaking is investing hundreds of millions of euros into several AI Factories, built atop existing high-performance computing (HPC) superc...
ID: 2509.12849v1 cs.DC, cs.AI
Авторы:

Tasnuva Chowdhury, Tadashi Maeno, Fatih Furkan Akman, Joseph Boudreau, Sankha Dutta, Shengyu Feng, Adolfy Hoisie, Kuan-Chieh Hsu, Raees Khan, Jaehyung Kim, Ozgur O. Kilic, Scott Klasky, Alexei Klimentov, Tatiana Korchuganova, Verena Ingrid Martinez Outschoorn, Paul Nilsson, David K. Park, Norbert Podhorszki, Yihui Ren, John Rembrandt Steele, Frédéric Suter, Sairam Sri Vatsavai, Torre Wenaus, Wei Yang, Yiming Yang, Shinjae Yoo

## Контекст Научные эксперименты в сложных и масштабных проектах часто включают в себя тысячи участников со всего мира. Эти проекты требуют постоянного расширения технологий и методов для обработки больших объемов данных. Одной из ключевых проблем является точное определение ресурсов, необходимых для каждого этапа обработки данных. Несовершенство этого процесса может привести к ошибкам, неэффективному использованию ресурсов и задержкам в анализе. Эти проблемы становятся более актуальными в условиях постоянного увеличения данных и разнообразия вычислительных возможностей. В этой статье представлена машинное-обучение-движущаяся модель для прогнозирования ресурсов в широкомасштабных научных проектах. Модель нацелена на решение проблем, связанных с ограниченным предварительным знанием о характеристиках каждого этапа процесса. Обеспечивая более точные прогнозы, модель помогает улучшить эффективность управления рабочими процессами и использования ресурсов. ## Метод Методология основывается на разработке и интеграции множества машинно-обучаемых моделей в систему управления рабочими процессами (Production and Distributed Analysis, PanDA). Эти модели используют глубокое обучение и регрессионные методы для прогнозирования ресурсов для каждого этапа обработки данных. Основной функционал включает: - **Подготовка данных**: Использование исторических данных для обучения моделей. - **Моделирование**: Использование глубоких нейронных сетей для прогнозирования времени и ресурсов для каждого этапа. - **Интеграция**: Интеграция моделей в PanDA для использования в реальном времени. Разработка методов включала обучение моделей на больших наборах данных, включающих разные сценарии обработки, для обеспечения высокой точности прогнозов. ## Результаты Эксперименты проводились на реальных научных рабочих процессах, включающих многоэтапную обработку данных. Модели показали высокую точность прогноза времени и ресурсов для каждого этапа. Например, в одном из сценариев модель уменьшила ошибку прогноза ресурсов на 20% в сравнении с существующими методами. Кроме того, проверки показали, что модели эффективно обрабатывают данные в реальном времени, дают возможность прогнозировать необходимые ресурсы с минимальными задержками и повышают общую эффективность управления рабочими процессами. ## Значимость Результаты могут быть применены в различных научных областях, где требуется оптимизация ресурсов и управление многоэтапными рабочими процессами. Например, в областях физики, биологии, инженерии и искусственного интеллекта. Модели позволяют: - Уменьшить за
Annotation:
The collaborative efforts of large communities in science experiments, often comprising thousands of global members, reflect a monumental commitment to exploration and discovery. Recently, advanced and complex data processing has gained increasing importance in science experiments. Data processing workflows typically consist of multiple intricate steps, and the precise specification of resource requirements is crucial for each step to allocate optimal resources for effective processing. Estimati...
ID: 2509.11512v1 cs.DC, cs.AI, cs.LG, 68T05, 68M14, 68W10
Авторы:

Anjiang Wei, Tianran Sun, Yogesh Seenichamy, Hang Song, Anne Ouyang, Azalia Mirhoseini, Ke Wang, Alex Aiken

## Контекст GPU kernel optimization является ключевым вопросом в области высокопроизводительных вычислений и машинного обучения. Эффективные GPU-ядра способствуют ускорению обучения и работы больших языковых моделей (LLM). Однако достижение высокой производительности часто требует значительных усилий вручную при настройке или использовании компиляторов. Даже с использованием существующих систем оптимизации кода, таких как LLMs для генерации CUDA-кода, получение оптимальной производительности ядра остается сложной задачей. Многие из этих подходов ориентируются на преобразование высокоуровневых спецификаций в CUDA-код. Но потребность в оптимальной производительности ядер для ЛЛМ приводит к новым аспектам, которые не учтены в существующих подходах. Мы предлагаем Astra, первую систему на основе многоагентных LLM для GPU-ядер, которая работает на основе существующих CUDA-кодов, а не на основе преобразования PyTorch-модулей. ## Метод Astra представляет собой многоагентную систему на основе LLM, которая применяет сотрудничество между агентами для кодовой генерации, тестирования, профилирования и планирования. Каждый агент отвечает за конкретный аспект оптимизации кода, такой как преобразование циклов, оптимизация доступа к памяти, использование CUDA-инструментов и применение быстрых математических операций. Исходные CUDA-коды извлекаются из SGLang, широко используемого фреймворка для серверного применения ЛЛМ. Агенты используют LLM для проведения экспериментов, профилирования, генерации новых вариантов кода и выбора оптимальных решений. Метод заключается в итеративном улучшении производительности ядер с помощью агентов, которые совместно решают задачи кодирования и профилирования. ## Результаты На кубах SGLang Astra достигает среднего ускорения 1.32x при использовании стилистического модели OpenAI o4-mini. Детальная случайная стадия показывает, что LLM-система может автономно применять циклические преобразования, оптимизировать доступ к памяти, использовать CUDA-инструменты и применять быстрые математические операции. Эти меры приводят к значительным улучшениям производительности. На основе экспериментов было показано, что Astra может значительно повысить производительность GPU-ядер без ручного вмешательства, что демонстрирует потенциал многоагентных LLM-систем в области оптимизации GPU-кода. ## Значимость Astra может применяться в сферах машинного обучения, высокопроизводительных вычислений и оптимизации GPU. Она предоставляет преимущества в скорости и эффективности в кодировании ядер GPU без ручного вмешательства. Это может привести к значительному сокращению времени и ресурсов
Annotation:
GPU kernel optimization has long been a central challenge at the intersection of high-performance computing and machine learning. Efficient kernels are crucial for accelerating large language model (LLM) training and serving, yet attaining high performance typically requires extensive manual tuning. Compiler-based systems reduce some of this burden, but still demand substantial manual design and engineering effort. Recently, researchers have explored using LLMs for GPU kernel generation, though ...
ID: 2509.07506v1 cs.DC, cs.AI, cs.CL, cs.LG, cs.SE
Авторы:

Alexander Interrante-Grant, Carla Varela-Rosa, Suhaas Narayan, Chris Connelly, Albert Reuther

## Контекст Large language models (LLMs) являются одними из самых эффективных инструментов в области натурального языкового процессинга, применяющихся в таких областях, как синтез речи, генерация текста, перевод и генеративные модели изображений. Однако их обучение требует высокой вычислительной мощности и значительных ресурсов. Главные исследовательские центры и компании инвестируют миллиарды долларов в суперкомпьютеры и сети связи для обучения моделей, содержащих миллиарды параметров. Тем не менее, доступная информация о том, как эффективно масштабировать такие модели и увеличить их производительность, очень ограничена. Поэтому, в данной статье мы раскрываем технические характеристики и мощь масштабирования LLMs, включая управление большими данными, распределенное обучение, методы параллелизации и оптимизацию GPU-использования. ## Метод Мы разрабатывали и проверяли методы оптимизации производительности во время обучения LLMs, сосредоточившись на распределенной среде с использованием трех типов параллелизации: широковещательной, зеркальной и параллельной. Для распределенного обучения мы использовали технологию Horovod, которая позволяет выполнять данные параллельные операции на GPU. Наша архитектура основывается на использовании широковещательных методов для распространения градиентов, а также на методах зеркального обучения для сокращения времени ожидания. Мы также развивали методы управления данными, включая разделение больших датасетов на меньшие порции, распаковку данных в память GPU и оптимизацию менедра данных. Для увеличения пропускной способности и уменьшения времени обучения мы использовали алгоритмы увеличения данных, включая аугментацию текста и параллельное упакование данных. ## Результаты Мы проверили нашу систему на датасете содержащем более 800 тысяч записей. Мы достигли скорости обучения до 1000 записей в секунду, что является одним из самых высоких показателей в области обучения LLMs. Мы оценили и проанализировали разновидности методов распределенной параллелизации и их влияние на время обучения и пропускную способность. Мы также провели эксперименты с разными стратегиями оптимизации GPU и данных, включая различные режимы памяти, глубину рабочего процесса и методы управления данными. Наши результаты показали, что наш подход к масштабированию LLMs может повысить скорость и эффективность обучения в среднем на 25–50%. ## Значимость Наша работа имеет большое значение для области глубокого обучения и LLMs. Мы предоставили детальные рекомендации по масштабированию моделей, которые могут быть поле
Annotation:
Large language models (LLMs) show best-in-class performance across a wide range of natural language processing applications. Training these models is an extremely computationally expensive task; frontier Artificial Intelligence (AI) research companies are investing billions of dollars into supercomputing infrastructure to train progressively larger models on increasingly massive datasets. Unfortunately, information about the scaling performance and training considerations of these large training...
ID: 2509.05258v1 cs.DC, cs.AI
Авторы:

Denis Los, Igor Petushkov

## Контекст Одной из основных проблем в области высокопроизводительных вычислений является увеличение задержек во время выполнения латентно-критичных приложений, таких как финансовые модели, распознавание речи и трансляция текста в реальном времени. Эти приложения часто сталкиваются с проблемами, такими как редкие промахи в кэш-памяти и неточности в прогнозировании переходов (branch mispredictions) во время выполнения спекулятивной команды в высокопроизводительных процессорах с суперскалярной архитектурой. Альтернативным решением, направленным на увеличение производительности, является использование Simultaneous Multithreading (SMT), который может увеличить эффективность использования процессора. Однако приложения с тяжелыми потоками, подверженными латентности, не часто используют SMT из-за отсутствия эффективных методологий для их параллелизации. Наша исследовательская цель заключается в разработке инструментов и методов для эффективного использования SMT в латентно-критичных сценариях. ## Метод Для развития решения, нацеленного на увеличение эффективности SMT в латентно-критичных приложениях, мы предлагаем AI-Powered Parallelization Adviser (Aira). Aira является замысловатым AI-движком, развитым на базе Cursor IDE с использованием Large Language Models (LLMs) для оптимизации параллелизации. Для реализации подхода мы расширяем AI Coding Agent в Cursor IDE, добавляя новые инструменты для работы с LLMs, включая: - **LLM-based hotspot detection** для определения критичных участков кода, - **Dynamic Binary Instrumentation (DBI)** для сбора динамических зависимостей во время выполнения, - **SMT-aware performance simulation** для оценки потенциальных выигрышей производительности. Мы используем Relic, платформу для fine-grained task parallelism на SMT, для работы с Aira. Это позволяет нам эффективно распараллеливать латентно-критичные приложения, представляющие собой реальные промышленные программные решения. ## Результаты Мы провели подробные эксперименты для оценки эффективности Aira в параллелизации латентно-критичных приложений. Для этого мы использовали набор бенчмарков, представляющих сценарии реального применения, таких как финансовые модели и обработка изображений. Мы применяли методы Aira с Relic для распараллеливания этих приложений на SMT-ядрах. **Результаты экспериментов показали значительные улучшения**: - **17% geomean performance gain** в латентно-критичных приложениях после применения Aira с Relic. - Эти результаты показали, что использование SMT в сочетании с платформой Aira может значительно улучшить эффективность, даже в случаях с тяжелыми потоками. ## Значимость Наши результаты показывают, что использование Aira для параллелизации латентно-критичных приложений в среде SMT может широко применяться в полевых сценариях, таких как финан
Annotation:
Latency-critical applications tend to show low utilization of functional units due to frequent cache misses and mispredictions during speculative execution in high-performance superscalar processors. However, due to significant impact on single-thread performance, Simultaneous Multithreading (SMT) technology is rarely used with heavy threads of latency-critical applications. In this paper, we explore utilization of SMT technology to support fine-grained parallelization of latency-critical applic...
ID: 2509.00883v1 cs.DC, cs.AI
Авторы:

Mingyu Yang, Jae-Young Choi, Kihyo Moon, Minsung Jang, Eunjoo Joen

## Контекст Реализация больших языковых моделей (LLM) вызывает значительные затраты ресурсов, особенно при обслуживании больших пакетов запросов. Одним из ключевых элементов, который позволяет ускорить инференс LLM, является **speculative decoding** — метод, при котором модель предсказывает возможные следующие токены в процессе генерации. Однако существующие подходы к speculative decoding ограничены фиксированной длиной спекуляции, что может приводить к неэффективности в сценариях с разнообразными запросами. Эта проблема становится важной в случаях, когда требуется высокая эффективность и устойчивость в реальном времени. В данной работе мы анализируем эту проблему и предлагаем новое решение, основанное на динамических сигналах, которые позволяют адаптировать длину спекуляции в зависимости от контекста запроса. ## Метод Для решения этой проблемы мы предлагаем **Dynamic Speculative Decoding Engine (DSDE)** — фреймворк, основанный на двух основных компонентах: 1. **Компонент KLD-Based Stability Signal**: Мы используем Kullback-Leibler Divergence (KLD) для оценки стабильности генерации токенов в каждом этапе. Этот сигнал позволяет определить, насколько устойчива генерация, и динамически регулировать длину спекуляции на основании диагностических сигналов. 2. **Adaptive Speculation Length Cap**: Мы вводим адаптивный порог для длины спекуляции, который позволяет избежать проблемы "straggler" — небольших потоков, которые замедляют общую скорость обслуживания. Этот подход гарантирует, что длина спекуляции будет адаптироваться в зависимости от характера запросов. DSDE — это тренировка-свободный подход, который может быть интегрирован с различными типами моделей LLM. Он основывается на динамическом анализе стабильности и адаптивной регулировке для обеспечения более эффективного инференса. ## Результаты Мы проводили ряд экспериментов, используя различные наборы данных и подготовленные тестовые сценарии, чтобы оценить эффективность DSDE. Мы сравнивали его с трех лидирующих базеров, которые также используют спекуляционный decoding. Наши результаты показали, что DSDE достигает конкурентной скорости обслуживания (end-to-end latency), сопоставимой с лучшими базовыми подходами. Более того, DSDE проявляет высокую устойчивость в сценариях с низким уровнем приемлемости запросов, где другие подходы могут быть менее эффективны. Эти результаты демонстрируют, что KLD-based stability signal и адаптивный speculation length cap эффективно компенсируют проблему нестабильности в ситуациях с разными объемами запросов. ## Значимость DSDE может применяться в наборе приложений, где требуется высокая производительность и устойчивость во время обслуживания
Annotation:
Speculative decoding accelerates large language model inference, but its reliance on a fixed speculation length is suboptimal in large-batch serving environments with diverse requests. This paper explores a new direction for dynamic adaptation by investigating a novel class of post-hoc, diagnostic signals. We propose Dynamic Speculative Decoding Engine (DSDE), a training-free framework built on two primary components: (1) a predictive signal based on the variance of the Kullback-Leibler (KLD) di...
ID: 2509.01083v1 cs.DC, cs.AI, cs.IT, math.IT, I.2.7; C.2.4
Авторы:

Huanqi Hu, Bowen Xiao, Shixuan Sun, Jianian Yin, Zhexi Zhang, Xiang Luo, Chengquan Jiang, Weiqi Xu, Xiaoying Jia, Xin Liu, Minyi Guo

#### Контекст В последние годы глубокое обучение (LLM) набирает все большую популярность, особенно в сферах, требующих высокой производительности и эффективности. Одной из ключевых задач в этой области является оптимизация моделей для работы на ограниченных ресурсах. Одним из эффективных способов достижения этой цели является использование схем квантования, которые уменьшают объем памяти и увеличивают скорость вычислений. Одним из популярных вариантов является квантование с 4-битным весом и 8-битными активациями (W4A8). Тем не менее, существующие реализации W4A8 GEMM (General Matrix Multiply) оказываются недостаточно эффективными в плане вычислительной скорости, в частности из-за проблем с деквантизацией на CUDA Cores. Это влечет за собой неэффективность при использовании высокопроизводительных Tensor Cores. В данной работе мы предлагаем LiquidGEMM — новое решение, созданное с целью устранения этих проблем и увеличения производительности LLM-сервиса. #### Метод LiquidGEMM основывается на двух основных технических приемах. Первым — LiquidQuant, новая техника квантования, которая позволяет производить деквантизацию с использованием только двух арифметических операций на 4 элемента. Это позволяет избежать проблем с переполнением и улучшить эффективность вычислений. Вторым — implicit fine-grained pipeline, которая допускает полное параллельное выполнение задач по загрузке весов, деквантизации и выполнения матричных многошаговых арифметических операций (MMA) без необходимости синхронизации в программном уровне или повторных чтений памяти. Эта архитектура дозволяет использовать весь потенциал Tensor Cores, обеспечивая существенные выигрыши в скорости выполнения. #### Результаты В ходе экспериментов LiquidGEMM демонстрирует существенные выигрыши по производительности. По сравнению с состоянием техники, достигнутые скорости выполнения выше на 2,9 раза. Этот результат достигается благодаря эффективной реализации деквантизации и полному параллелизму внутри кадров. Более того, LiquidGEMM показывает системно-уровневые выигрыши до 4,94 раз, что свидетельствует о значительном улучшении общей эффективности системы. Сравнение с ранее используемыми W4A8-реализациями в NVIDIA TensorRT-LLM показало, что LiquidGEMM дает прирост скорости в диапазоне от 1,12 до 1,63 раз, а также достигает до 1,63 раз системных выигрышей. #### Значимость Предложенное решение имеет широкие применения в области обработки естественного языка, в том числе при работе с моделями типа LLM. Оно обеспечивает значительное увеличение производительности в сравнении с текущими стандартами. Благодаря использованию LiquidQuant и пара
Annotation:
Quantization is a critical technique for accelerating LLM inference by reducing memory footprint and improving computational efficiency. Among various schemes, 4-bit weight and 8-bit activation quantization (W4A8) offers a strong balance between accuracy and performance. However, existing W4A8 GEMM kernels fall short in practice due to inefficient dequantization on CUDA Cores, which cannot keep pace with the high throughput of Tensor Cores. In this paper, we present LiquidGEMM, a hardware-effici...
ID: 2509.01229v1 cs.DC, cs.AI, cs.LG
Показано 61 - 70 из 86 записей