📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня
Авторы:

Shahid Amin, Syed Pervez Hussnain Shah

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Annotation:
The remarkable progress in Artificial Intelligence (AI) is foundation-ally linked to a concurrent revolution in computer architecture. As AI models, particularly Deep Neural Networks (DNNs), have grown in complexity, their massive computational demands have pushed traditional architectures to their limits. This paper provides a structured review of this co-evolution, analyzing the architectural landscape designed to accelerate modern AI workloads. We explore the dominant architectural paradigms ...
ID: 2511.10010v1 cs.AR, cs.AI, cs.LG
Авторы:

Yuanpeng Zhang, Xing Hu, Xi Chen, Zhihang Yuan, Cong Li, Jingchen Zhu, Zhao Wang, Chenguang Zhang, Xin Si, Wei Gao, Qiang Wu, Runsheng Wang, Guangyu Sun

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Annotation:
SRAM Processing-in-Memory (PIM) has emerged as the most promising implementation for high-performance PIM, delivering superior computing density, energy efficiency, and computational precision. However, the pursuit of higher performance necessitates more complex circuit designs and increased operating frequencies, which exacerbate IR-drop issues. Severe IR-drop can significantly degrade chip performance and even threaten reliability. Conventional circuit-level IR-drop mitigation methods, such as...
ID: 2511.04321v1 cs.AR, cs.AI, cs.LG
Авторы:

Arnav Shukla, Harsh Sharma, Srikant Bharadwaj, Vinayak Abrol, Sujay Deb

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Annotation:
Heterogeneous chiplet-based systems improve scaling by disag-gregating CPUs/GPUs and emerging technologies (HBM/DRAM).However this on-package disaggregation introduces a latency inNetwork-on-Interposer(NoI). We observe that in modern large-modelinference, parameters and activations routinely move backand forth from HBM/DRAM, injecting large, bursty flows into theinterposer. These memory-driven transfers inflate tail latency andviolate Service Level Agreements (SLAs) across k-ary n-cube base-line...
ID: 2510.24113v1 cs.AR, cs.AI, cs.LG
Авторы:

Shvetank Prakash, Andrew Cheng, Arya Tschand, Mark Mazumder, Varun Gohil, Jeffrey Ma, Jason Yik, Zishen Wan, Jessica Quaye, Elisavet Lydia Alvanaki, Avinash Kumar, Chandrashis Mazumdar, Tuhin Khare, Alexander Ingare, Ikechukwu Uchendu, Radhika Ghosal, Abhishek Tyagi, Chenyu Wang, Andrea Mattia Garavagno, Sarah Gu, Alice Guo, Grace Hur, Luca Carloni, Tushar Krishna, Ankita Nayak, Amir Yazdanbakhsh, Vijay Janapa Reddi

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Annotation:
The field of computer architecture, which bridges high-level software abstractions and low-level hardware implementations, remains absent from current large language model (LLM) evaluations. To this end, we present QuArch (pronounced 'quark'), the first benchmark designed to facilitate the development and evaluation of LLM knowledge and reasoning capabilities specifically in computer architecture. QuArch provides a comprehensive collection of 2,671 expert-validated question-answer (QA) pairs cov...
ID: 2510.22087v1 cs.AR, cs.AI, cs.LG, cs.SE
Авторы:

Lennart Bamberg, Filippo Minnella, Roberto Bosio, Fabrizio Ottati, Yuebin Wang, Jongmin Lee, Luciano Lavagno, Adam Fuks

#### Контекст Активное развитие интеллектуальных систем на основе глубоких нейронных сетей приводит к появлению новых требований к вычислительной мощности и эффективности, особенно в ресурс-ограниченных средах, таких как края сети (edge). Нейропроцессоры (NPUs) возникают как решение для эффективной обработки нейросетевых моделей на краях сети. Однако показатели "на высоте", такие как TOPS (транзакций в секунду), часто оказываются малоинформативными в реальных условиях, так как не соотносятся с фактической эффективностью и часто приводят к значительным издержкам на силиконовый производство. Необходимо развивать архитектуры NPUs, которые будут оптимизированы для эффективного использования вычислительных ресурсов, сохраняя гибкость для различных задач. В этой работе представляется эффективный NPU "eIQ Neutron", интегрированный в современный коммерческий модуль для многоцелевых приложений (MPU), вместе с компилятором, оптимизированным для вычислений и данных. #### Метод "eIQ Neutron" использует данные-драйверный подход для оптимизации вычислительных ресурсов и данных. Архитектура NPU основывается на гибкой структуре, которая позволяет адаптироваться к разным типам нейросетевых моделей. Для увеличения эффективности вычислений и уменьшения трафика данных, компилятор работает на основе ограниченной программировальной модели, которая генерирует оптимальные коды для различных типов задач. Эта архитектура позволяет фокусироваться на использовании ресурсов наиболее эффективно, чтобы достичь высокой производительности при ограниченных вычислительных и памятных ресурсах. #### Результаты В ходе экспериментов, проведенных на стандартных бенчмарках, "eIQ Neutron" показал средний прирост производительности 1,8 раза (до 4 раз в пиковых условиях) по сравнению с ведущим NPU и компилятором в задачах воспроизведения видео, обработки изображений и других задач. Даже при работе на NPU с двойным объемом вычислительных ресурсов и памяти, "eIQ Neutron" показал до 3,3 раза более высокую производительность. Эти результаты достигнуты благодаря оптимальной организации вычислительных процессов и гибкой архитектуре, которая позволяет использовать ресурсы более эффективно. #### Значимость Решение, представленное в этой работе, может быть использовано в различных приложениях, включая обработку реального времени, распознавание речи, распознавание образов и другие задачи, требующие высокой производительности в ресурс-ограниченных средах. Основные преимущества технологии "eIQ Neutron" заключаются в том, что она позволяет повысить эффективность вычислений, сократить расходы на силиконовый
Annotation:
Neural Processing Units (NPUs) are key to enabling efficient AI inference in resource-constrained edge environments. While peak tera operations per second (TOPS) is often used to gauge performance, it poorly reflects real-world performance and typically rather correlates with higher silicon cost. To address this, architects must focus on maximizing compute utilization, without sacrificing flexibility. This paper presents the eIQ Neutron efficient-NPU, integrated into a commercial flagship MPU, a...
ID: 2509.14388v1 cs.AR, cs.AI, cs.LG
Авторы:

Yujun Lin, Zhekai Zhang, Song Han

## Контекст Современные тензорные приложения, особенно фундаментальные модели и приложения в области генеративного ИИ, требуют многомодального ввода (образов и языка), что приводит к повышению требований к гибкой архитектуре акселераторов. Существующие фреймворки сталкиваются с проблемой компромисса между гибкостью проектирования и производительностью генерации RTL: либо они ограничены в нюансах, либо не могут автоматически генерировать RTL. Для решения этой проблемы мы предлагаем фреймворк LEGO, который автоматически генерирует специализированные архитектуры для тензорных приложений и выводит готовый к синтезу RTL-код. Он не требует ручной разработки шаблонов RTL, что позволяет увеличить эффективность разработки. ## Метод LEGO представляет собой двухуровневую архитектуру: спереди и сзади. В представлении спереди, фреймворк использует аффинное преобразование для исследования взаимосвязи между функциональными единицами, синтезирует систему памяти и объединяет различные распределенные данные с помощью анализа повторного использования данных. В представлении сзади, фреймворк преобразует граф железа на уровне примитивов, выполняет оптимизации на уровне низкого уровня и применяет линейные алгоритмы программирования для оптимального вставления регистров труб и уменьшения накладных расходов при переключении распределенных данных. ## Результаты Мы провели эксперименты для оценки производительности и энергоэффективности LEGO. Он достиг 3.2x скоростного прироста и 2.4x энергоэффективности по сравнению с Gemmini, предшествующим решением. Фреймворк также продемонстрировал универсальность, генерируя архитектуру для различных моделей фундаментальных приложений в области генеративного ИИ. Эти результаты подтверждают эффективность LEGO в адаптации к различным требованиям моделей. ## Значимость LEGO может применяться в сфере развития акселераторов для генеративных моделей ИИ, видео- и изображенческих приложений. Он предлагает высокую гибкость в проектировании, снижает время шейпинга и повышает производительность и энергоэффективность. Это может привести к значительным преимуществам в быстродействии и энергосбережении для приложений, требующих высокой производительности и эффективности. ## Выводы Результаты нашего исследования показали, что LEGO является эффективным инструментом для автоматического генерирования архитектур для тензорных приложений. Мы планируем расширить возможности фреймворка, включив дополнительные оптимизации и поддержку дополнительных архитектур для более широкого спект
Annotation:
Modern tensor applications, especially foundation models and generative AI applications require multiple input modalities (both vision and language), which increases the demand for flexible accelerator architecture. Existing frameworks suffer from the trade-off between design flexibility and productivity of RTL generation: either limited to very few hand-written templates or cannot automatically generate the RTL. To address this challenge, we propose the LEGO framework, which targets tensor appl...
ID: 2509.12053v1 cs.AR, cs.AI, cs.LG
Авторы:

Yuannuo Feng, Wenyong Zhou, Yuexi Lyu, Hanjie Liu, Zhengwu Liu, Ngai Wong, Wang Kang

## Контекст State Space Models (SSMs) являются эффективными альтернативами традиционным последовательностным моделям в обработке длинных последовательностей, с меньшим количеством вычислительных ресурсов. Основываясь на матричных множениях, они хорошо подходят для компьютерных архитектур с вычислением в памяти (CIM, Compute-in-Memory), которые улучшают энергоэффективность за счет выполнения вычислений непосредственно в памяти. Однако, недостатки устройств в CIM могут привести к весовым погрешностям, что в свою очередь сказывается на точности инференции. Наблюдение о том, что последние слои моделей SSMs подвержены этим погрешностям больше всего, позволило разработать новую стратегию HPD (Hybrid Projection Decomposition), которая направлена на улучшение точности и устойчивости моделей, особенно при использовании CIM-технологий. ## Метод HPD (Hybrid Projection Decomposition) — это новая стратегия коррекции весов в последнем проекционном слое модели SSM. Она заключается в том, чтобы заменить оригинальную матрицу весов своим Singular Value Decomposition (SVD) — матрицей U и массивом \Sigma — где U применяется на аппаратном уровне, а \Sigma и V^T используются в цифровой части для точной инверсии и коррекции весов. Эта стратегия позволяет совмещать преимущества аппаратного уровня с цифровой коррекцией, чтобы сохранять точность модели, даже при влиянии весовых погрешностей. Метод широко приспособлен для работы в архитектурах CIM, которые требуют высокой энергоэффективности и точности. ## Результаты HPD была протестирована на нескольких моделях Mamba в условиях разных шумовых условий. Результаты показали, что HPD существенно улучшает точность работы модели, снижая perplexity до 99.57% по сравнению с базовыми моделями в условиях шума. На benchmark PIQA (Проблемы Человеческой Рациональности) HPD показала прирост точности до 96.67% в сравнении с традиционными моделями. Эти результаты доказывают, что HPD не только улучшает точность, но и повышает устойчивость моделей SSM в условиях шума, которые характерны для CIM-архитектур. ## Значимость HPD имеет широкие потенциальные применения в области технологий CIM, где точность и эффективность вычислений являются ключевыми параметрами. Она позволяет улучшить точность работы не только в области NLP, но и в других сферах, где используются SSM, таких как видеоанализ, изображения, и другие задачи машинного обучения. Благодаря HPD можно добиться существенных улучшений в точности и устойчивости моделей, даже при использовании CIM-архитектур, что делает ее привлекательной для развития энергоэффективных и точных алгоритмов в различных областях. ## Выводы HPD
Annotation:
State Space Models (SSMs) are efficient alternatives to traditional sequence models, excelling at processing long sequences with lower computational complexity. Their reliance on matrix multiplications makes them ideal for compute-in-memory (CIM) architectures, which improve energy efficiency by computing within memory arrays. However, device non-idealities in CIM introduce weight perturbations that can degrade inference accuracy. In this paper, we systematically analyze the robustness of SSMs u...
ID: 2508.11935v1 cs.AR, cs.AI, cs.LG