📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 0

Последнее обновление: сегодня
Авторы:

Shashwat Shankar, Subhranshu Pandey, Innocent Dengkhw Mochahari, Bhabesh Mali, Animesh Basak Chowdhury, Sukanta Bhattacharjee, Chandan Karfa

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Annotation:
Large Language Model(LLM) inference demands massive compute and energy, making domain-specific tasks expensive and unsustainable. As foundation models keep scaling, we ask: Is bigger always better for hardware design? Our work tests this by evaluating Small Language Models coupled with a curated agentic AI framework on NVIDIA's Comprehensive Verilog Design Problems(CVDP) benchmark. Results show that agentic workflows: through task decomposition, iterative feedback, and correction - not only unlo...
ID: 2512.05073v1 cs.LG, cs.AI, cs.AR, cs.SE
Авторы:

Ruogu Ding, Xin Ning, Ulf Schlichtmann, Weikang Qian

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Annotation:
Prefix adders are widely used in compute-intensive applications for their high speed. However, designing optimized prefix adders is challenging due to strict design rules and an exponentially large design space. We introduce PrefixGPT, a generative pre-trained Transformer (GPT) that directly generates optimized prefix adders from scratch. Our approach represents an adder's topology as a two-dimensional coordinate sequence and applies a legality mask during generation, ensuring every design is va...
ID: 2511.19472v1 cs.LG, cs.AI, cs.AR
Авторы:

Mohsen Ahmadzadeh, Kaichang Chen, Georges Gielen

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Annotation:
Analog/mixed-signal circuits are key for interfacing electronics with the physical world. Their design, however, remains a largely handcrafted process, resulting in long and error-prone design cycles. While the recent rise of AI-based reinforcement learning and generative AI has created new techniques to automate this task, the need for many time-consuming simulations is a critical bottleneck hindering the overall efficiency. Furthermore, the lack of explainability of the resulting design soluti...
ID: 2511.03697v1 cs.LG, cs.AI, cs.AR
Авторы:

Ke Xue, Ruo-Tong Chen, Rong-Xi Tan, Xi Lin, Yunqi Shi, Siyuan Xu, Mingxuan Yuan, Chao Qian

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Annotation:
Chip placement is a vital stage in modern chip design as it has a substantial impact on the subsequent processes and the overall quality of the final chip. The use of black-box optimization (BBO) for chip placement has a history of several decades. However, early efforts were limited by immature problem formulations and inefficient algorithm designs. Recent progress has shown the effectiveness and efficiency of BBO for chip placement, proving its potential to achieve state-of-the-art results. De...
ID: 2510.23472v1 cs.LG, cs.AI, cs.AR, cs.NE
Авторы:

Hamza Ezzaoui Rahali, Abhilasha Dave, Larry Ruckman, Mohammad Mehdi Rahimifar, Audrey C. Therrien, James J. Russel, Ryan T. Herbst

## Контекст С Free Electron Laser (FEL) LCLS-II будет генерировать лучи X-ray с частотой до 1 MHz, при этом детекторы будут создавать потоки данных, превышающие 1 TB/s. Эта скорость обработки данных представляет собой огромный технический вызов, так как существующие инфраструктуры трансмиссии и хранения данных становятся просто недоступными по цене. Машинное обучение (ML) может стать решением для реального времени, но традиционные решения не могут справиться с такими высокими скоростями потока данных из-за высокой задержки. Чтобы решить эти проблемы, SLAC разработала SLAC Neural Network Library (SNL) - специальный фреймворк для развертывания моделей нейронных сетей на Field-Programmable Gate Arrays (FPGA). SNL позволяет динамически обновлять веса моделей без перекомпиляции FPGA, что делает ее подходящей для применения в адаптивных обучающих системах. Для удобства и доступности мы предлагаем Auto-SNL, расширение Python, которое легко преобразует модели Python в код SNL. ## Метод SNL - это фреймворк, который позволяет развертывать модели нейронных сетей на FPGA с динамическим обновлением весов. Используется методология High-Level Synthesis (HLS), которая позволяет писать модели в Python, а затем генерировать код для FPGA. Мы также внедрили Auto-SNL - расширение Python, которое автоматически преобразует модели в код HLS, совместимый с SNL. Этот подход позволяет уменьшить затраты на разработку и повысить эффективность. Мы провели эксперименты на Xilinx ZCU102 FPGA, сравнив SNL с hls4ml, текущим лидером в этой области. Мы протестировали несколько моделей нейронных сетей, различных fixed-point precisions и конфигураций синтеза. ## Результаты Мы провели эксперименты на Xilinx ZCU102 FPGA и сравнили SNL с hls4ml. Результаты показали, что SNL достигает конкурентных или лучших результатов по задержкам в большинстве тестовых моделей нейронных сетей. В некоторых случаях SNL также уменьшил потребление FPGA ресурсов. Это демонстрирует универсальность SNL в различных областях, включая высокоэнергетическую физику, медицинскую импедианту, робототехнику и др. Мы показали, что SNL может обрабатывать большие потоки данных в режиме реального времени, что делает его подходящим для систем с низкими задержками. ## Значимость Мы применили нашу разработку к различным областям, включая high-energy physics, medical imaging, robotics, и др. Использование SNL позволит эффективно обрабатывать большие потоки данных в реальном времени, что может быть применено в различных приложениях, от обработки изображений до распознавания объектов. Это делает SNL перспективным инструментом для развития систем в реальном времени. ## Выводы Мы доказали, что SNL может стать эффективным решением для реального времени, позволяя обрабатывать большие потоки данных
Annotation:
The LCLS-II Free Electron Laser (FEL) will generate X-ray pulses for beamline experiments at rates of up to 1~MHz, with detectors producing data throughputs exceeding 1 TB/s. Managing such massive data streams presents significant challenges, as transmission and storage infrastructures become prohibitively expensive. Machine learning (ML) offers a promising solution for real-time data reduction, but conventional implementations introduce excessive latency, making them unsuitable for high-speed e...
ID: 2508.21739v1 cs.LG, cs.AI, cs.AR
Авторы:

Shaobo Ma, Chao Fang, Haikuo Shao, Zhongfeng Wang

## Контекст Large language models (LLMs) являются ключевыми инструментами в развитии искусственного интеллекта, но их высокие вычислительные затраты ограничивают их развертывание и реального времени взаимодействие. Одним из потенциальных способов улучшения эффективности является использование методов квантования, но достижение высокой эффективности при использовании ultra-low-bit quantized LLMs по-прежнему остается сложной задачей. Особенно это касается GPU Tensor Cores, которые предлагают ограниченную поддержку, неэффективное управление памятью и жесткие оптимизации. Чтобы справиться с этими проблемами, мы предлагаем APT-LLM — систему ускорения, поддерживающую работу со случайной точностью. ## Метод APT-LLM включает несколько ключевых технических решений. Мы представляем новую данной формат, "bipolar-INT", который позволяет трансформировать данные с потерь между INT и бинарным форматом, обеспечивая эффективность расчетов и совместимость с GPU Tensor Cores. Мы также разработали метод матричного перемножения (MatMul), позволяющий работать с данными в произвольной точности, разбивая и соединяя матрицы на битовых уровнях. Это позволяет гибко менять точность и оптимизировать использование GPU Tensor Cores. Для улучшения управления памятью мы предлагаем систему управления данными, включающую в себя восстановление данных на гибком общем ядре, что позволяет ускорить выполнение и снизить задержки. Наконец, мы реализовали динамическую систему оптимизации, которая выбирает оптимальные настройки для каждого размера матрицы, обеспечивая максимальную производительность для различных архитектур LLMs. ## Результаты Мы провели эксперименты на основе нескольких моделей LLMs, в том числе на PyTorch, TensorRT и NVIDIA CUTLASS. Наша система достигла до 3.99$\times$ ускорения по сравнению с базовыми моделями FP16 на RTX 3090. Также, мы обнаружили, что на RTX 4090 и H800 производительность APT-LLM выше на 2.44$\times$ по сравнению с FP16 и на 1.65$\times$ по сравнению с CUTLASS INT4. Эти результаты демонстрируют, что APT-LLM дает существенное улучшение производительности при работе с ultra-low-bit LLMs в различных условиях. ## Значимость APT-LLM может применяться в различных областях, в том числе при развертывании LLMs в реальном времени, в области NLP, в облачных сервисах, а также в интеллектуальных системах, требующих высокой производительности. Это улучшение производительности и эффективности не только повышает скорость вычислений, но и снижает энергозатраты, что имеет важное значение в масштабном развертывании AI-систем. ## Выводы Мы добились выдающихся результатов в ускорении LLMs, используя уника
Annotation:
Large language models (LLMs) have revolutionized AI applications, yet their enormous computational demands severely limit deployment and real-time performance. Quantization methods can help reduce computational costs, however, attaining the extreme efficiency associated with ultra-low-bit quantized LLMs at arbitrary precision presents challenges on GPUs. This is primarily due to the limited support for GPU Tensor Cores, inefficient memory management, and inflexible kernel optimizations. To tackl...
ID: 2508.19087v1 cs.LG, cs.AI, cs.AR
Авторы:

Hamza A. Abushahla, Dara Varam, Ariel J. N. Panopio, Mohamed I. AlHajri

## Контекст Современные приложения на основе глубоких нейронных сетей (DNNs) требуют высокой мощности вычислений и большого объема памяти, что ограничивает их применение на простых устройствах, таких как микроконтроллеры. Эти ограничения влекут за собой высокую энергопотребление и замедление работы. Одним из решений этой проблемы является Quantized Neural Networks (QNNs), которые уменьшают модельные требования к памяти и вычислениям за счет использования дробных значений вместо полного множества чисел. Однако, даже QNNs далеко не всегда могут быть выполнены эффективно на микроконтроллерах из-за ограниченности ресурсов. Эта статья представляет собой обзор технических решений и текущих платформ для развертывания QNNs на микроконтроллерах, а также проанализирует соотношение между модельными показателями и характеристиками железа. Также будут рассмотрены ограничения и перспективы развития данной области. ## Метод В настоящем исследовании рассматриваются различные техники квантования, такие как полное квантование, параллельное квантование, и квантование с использованием частичных дробных значений. Обзорными являются не только теоретические подходы к квантованию, но и системные решения, включая архитектуры и оптимизации платформ, которые позволяют запускать QNNs на микроконтроллерах. При этом особое внимание уделяется вопросу торговли между модельными показателями и архитектурными ограничениями. Также в рамках данного исследования обзор содержит исследование существующих фреймворков и железных решений для поддержки QNNs на микроконтроллерах. ## Результаты Эксперименты показали, что QNNs могут быть эффективно развернуты на микроконтроллерах, но только при соблюдении строгих ограничений на модельные показатели. Наиболее эффективными оказались модели с использованием квантования на 4 и 8 бит, которые позволяют сохранить подходящий уровень точности с минимальным влиянием на модельные показатели. Также были проанализированы различные фреймворки, такие как TensorFlow Lite for Microcontrollers и TinyML, и определены их производительность и удобство для разработчиков. Кроме того, было проанализировано влияние различных архитектур железа, таких как ARM Cortex-M и ESP32, на производительность QNNs. ## Значимость QNNs могут быть применены в системах с ограниченными ресурсами, таких как сенсорные сети, мобильные устройства и интеллектуальные домашние устройства. Они не только уменьшают затраты на мощность и память, но и позволяют достичь высокой модельной точности при малом требовании к ресурсам. Это делает QNNs привлекательными для применения в области телеметрии, ав
Annotation:
The deployment of Quantized Neural Networks (QNNs) on resource-constrained devices, such as microcontrollers, has introduced significant challenges in balancing model performance, computational complexity and memory constraints. Tiny Machine Learning (TinyML) addresses these issues by integrating advancements across machine learning algorithms, hardware acceleration, and software optimization to efficiently run deep neural networks on embedded systems. This survey presents a hardware-centric int...
ID: 2508.15008v1 cs.LG, cs.AI, cs.AR
Авторы:

Yuannuo Feng, Wenyong Zhou, Yuexi Lyu, Yixiang Zhang, Zhengwu Liu, Ngai Wong, Wang Kang

## Контекст Аналоговые Compute-In-Memory (CIM) архитектуры предлагают значительные энергоэффективностные выигрыши для нейронных сетей, однако сталкиваются с трудностями внедрения из-за характерных аппаратных шумов. Интерес к этим архитектурам возникает из-за потребности в энергосберегающих решениях для нейронных сетей, особенно в приложениях с ограниченными ресурсами. Однако существующие методы тренировки, предназначенные для устранения влияния шума, часто основываются на идеализированных моделях шума, которые недостаточно точно отражают реальные аппаратные особенности. Наша работа нацелена на развитие более точных методов тренировки, учитывающих реальные черты аппаратного шума в CIM. ## Метод Мы расширяем Straight-Through Estimator (STE) фреймворк для внедрения более точной модели шума в процессе обучения. Наша методология разделяет форвардную симуляцию шума от обратного вычисления градиентов. Это позволяет использовать более точные, но теоретически неразрывные модели шума в аналоговых CIM-системах. Мы обосновываем наш подход теоретически, демонстрируя, что он сохраняет ключевую информацию о направлениях градиентов, обеспечивая стабильность оптимизации и эффективность вычислений. ## Результаты Мы проводили эксперименты на задачах классификации изображений и текстового генератора. Наши результаты показали до 5.3% улучшения точности в классификации изображений, сокращения perplexity на 0.72 в текстовом генераторе, ускорения обучения в 2.2 раза и сокращения пикового использования памяти на 37.9% по сравнению с существующими методами. Эти результаты доказывают эффективность нашего подхода в улучшении качества и производительности обучения на аналоговых CIM-системах. ## Значимость Наша работа может быть применима в разработке энергоэффективных нейронных сетей для приложений с ограниченными ресурсами, таких как IoT-устройства и мобильные платформы. Она предлагает преимущества в точности и производительности, значительно сокращая влияние шума и улучшая эффективность вычислений. Эти достижения открывают новые пути для развития CIM-технологий и их применения в реальных мировых задачах. ## Выводы Мы разработали расширенный STE-подход, который эффективно работает с шумом в аналоговых CIM-системах, улучшая качество и производительность обучения. Будущие исследования будут направлены на расширение этого подхода к другим типам нейронных сетей и аппаратных платформам, а также на улучшение способности моделей устойчивости к аппаратным характеристикам.
Annotation:
Analog Compute-In-Memory (CIM) architectures promise significant energy efficiency gains for neural network inference, but suffer from complex hardware-induced noise that poses major challenges for deployment. While noise-aware training methods have been proposed to address this issue, they typically rely on idealized and differentiable noise models that fail to capture the full complexity of analog CIM hardware variations. Motivated by the Straight-Through Estimator (STE) framework in quantizat...
ID: 2508.11940v1 cs.LG, cs.AI, cs.AR