Accelerating Latency-Critical Applications with AI-Powered Semi-Automatic Fine-Grained Parallelization on SMT Processors

2509.00883v1 cs.DC, cs.AI 2025-09-05

Авторы:

Denis Los, Igor Petushkov

Резюме на русском

## Контекст Одной из основных проблем в области высокопроизводительных вычислений является увеличение задержек во время выполнения латентно-критичных приложений, таких как финансовые модели, распознавание речи и трансляция текста в реальном времени. Эти приложения часто сталкиваются с проблемами, такими как редкие промахи в кэш-памяти и неточности в прогнозировании переходов (branch mispredictions) во время выполнения спекулятивной команды в высокопроизводительных процессорах с суперскалярной архитектурой. Альтернативным решением, направленным на увеличение производительности, является использование Simultaneous Multithreading (SMT), который может увеличить эффективность использования процессора. Однако приложения с тяжелыми потоками, подверженными латентности, не часто используют SMT из-за отсутствия эффективных методологий для их параллелизации. Наша исследовательская цель заключается в разработке инструментов и методов для эффективного использования SMT в латентно-критичных сценариях. ## Метод Для развития решения, нацеленного на увеличение эффективности SMT в латентно-критичных приложениях, мы предлагаем AI-Powered Parallelization Adviser (Aira). Aira является замысловатым AI-движком, развитым на базе Cursor IDE с использованием Large Language Models (LLMs) для оптимизации параллелизации. Для реализации подхода мы расширяем AI Coding Agent в Cursor IDE, добавляя новые инструменты для работы с LLMs, включая: - **LLM-based hotspot detection** для определения критичных участков кода, - **Dynamic Binary Instrumentation (DBI)** для сбора динамических зависимостей во время выполнения, - **SMT-aware performance simulation** для оценки потенциальных выигрышей производительности. Мы используем Relic, платформу для fine-grained task parallelism на SMT, для работы с Aira. Это позволяет нам эффективно распараллеливать латентно-критичные приложения, представляющие собой реальные промышленные программные решения. ## Результаты Мы провели подробные эксперименты для оценки эффективности Aira в параллелизации латентно-критичных приложений. Для этого мы использовали набор бенчмарков, представляющих сценарии реального применения, таких как финансовые модели и обработка изображений. Мы применяли методы Aira с Relic для распараллеливания этих приложений на SMT-ядрах. **Результаты экспериментов показали значительные улучшения**: - **17% geomean performance gain** в латентно-критичных приложениях после применения Aira с Relic. - Эти результаты показали, что использование SMT в сочетании с платформой Aira может значительно улучшить эффективность, даже в случаях с тяжелыми потоками. ## Значимость Наши результаты показывают, что использование Aira для параллелизации латентно-критичных приложений в среде SMT может широко применяться в полевых сценариях, таких как финан

Abstract

Latency-critical applications tend to show low utilization of functional units due to frequent cache misses and mispredictions during speculative execution in high-performance superscalar processors. However, due to significant impact on single-thread performance, Simultaneous Multithreading (SMT) technology is rarely used with heavy threads of latency-critical applications. In this paper, we explore utilization of SMT technology to support fine-grained parallelization of latency-critical applications. Following the advancements in the development of Large Language Models (LLMs), we introduce Aira, an AI-powered Parallelization Adviser. To implement Aira, we extend AI Coding Agent in Cursor IDE with additional tools connected through Model Context Protocol, enabling end-to-end AI Agent for parallelization. Additional connected tools enable LLM-guided hotspot detection, collection of dynamic dependencies with Dynamic Binary Instrumentation, SMT-aware performance simulation to estimate performance gains. We apply Aira with Relic parallel framework for fine-grained task parallelism on SMT cores to parallelize latency-critical benchmarks representing real-world applications used in industry. We show 17% geomean performance gain from parallelization of latency-critical benchmarks using Aira with Relic framework.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Accelerating Latency-Critical Applications with AI-Powered Semi-Automatic Fine-Grained Parallelization on SMT Processors

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Delta Sum Learning: an approach for fast and global convergence in Gossip Learni...

SparOA: Sparse and Operator-aware Hybrid Scheduling for Edge DNN Inference

Beluga: A CXL-Based Memory Architecture for Scalable and Efficient LLM KVCache M...

Fast LLM Post-training via Decoupled and Best-of-N Speculation

Fast LLM Post-training via Decoupled and Best-of-N Speculation

Навигация