📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 In-memory Training on Analog Devices with Limited Conductance States via Multi-tile Residual Learning

2025-10-07

Авторы:

Jindan Li, Zhaoxian Wu, Gaowen Liu, Tayfun Gokmen, Tianyi Chen

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Analog in-memory computing (AIMC) accelerators enable efficient deep neural network computation directly within memory using resistive crossbar arrays, where model parameters are represented by the conductance states of memristive devices. However, effective in-memory training typically requires at least 8-bit conductance states to match digital baselines. Realizing such fine-grained states is costly and often requires complex noise mitigation techniques that increase circuit complexity and ener...

ID: 2510.02516v1 cs.LG, cs.AR, math.OC

arXiv PDF

📄 On the Shape of Latent Variables in a Denoising VAE-MoG: A Posterior Sampling-Based Study

2025-10-03

Авторы:

Fernanda Zapata Bascuñán

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

In this work, we explore the latent space of a denoising variational autoencoder with a mixture-of-Gaussians prior (VAE-MoG), trained on gravitational wave data from event GW150914. To evaluate how well the model captures the underlying structure, we use Hamiltonian Monte Carlo (HMC) to draw posterior samples conditioned on clean inputs, and compare them to the encoder's outputs from noisy data. Although the model reconstructs signals accurately, statistical comparisons reveal a clear mismatch i...

ID: 2509.25382v1 cs.LG, cs.AR

arXiv PDF

📄 EEsizer: LLM-Based AI Agent for Sizing of Analog and Mixed Signal Circuit

2025-10-03

Авторы:

Chang Liu, Danial Chitnis

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

The design of Analog and Mixed-Signal (AMS) integrated circuits (ICs) often involves significant manual effort, especially during the transistor sizing process. While Machine Learning techniques in Electronic Design Automation (EDA) have shown promise in reducing complexity and minimizing human intervention, they still face challenges such as numerous iterations and a lack of knowledge about AMS circuit design. Recently, Large Language Models (LLMs) have demonstrated significant potential across...

ID: 2509.25510v1 cs.LG, cs.AR

arXiv PDF

📄 BiHDTrans: binary hyperdimensional transformer for efficient multivariate time series classification

2025-10-01

Авторы:

Jingtao Zhang, Yi Liu, Qi Shen, Changhong Wang

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

The proliferation of Internet-of-Things (IoT) devices has led to an unprecedented volume of multivariate time series (MTS) data, requiring efficient and accurate processing for timely decision-making in resource-constrained edge environments. Hyperdimensional (HD) computing, with its inherent efficiency and parallelizability, has shown promise in classification tasks but struggles to capture complex temporal patterns, while Transformers excel at sequence modeling but incur high computational and...

ID: 2509.24425v1 cs.LG, cs.AR

arXiv PDF

📄 MaRVIn: A Cross-Layer Mixed-Precision RISC-V Framework for DNN Inference, from ISA Extension to Hardware Acceleration

2025-09-20

Авторы:

Giorgos Armeniakos, Alexis Maras, Sotirios Xydis, Dimitrios Soudris

#### Контекст Настоящие технологии в области нейронных сетей (NN) становятся все более сложными, при этом требуют большой вычислительной мощности и энергоэффективности. Одной из ключевых проблем является эффективность выполнения сетей на микропроцессорах, особенно в случае многопроцессорных вычислений. Технологии уменьшения точности (quantization) и смешанных прецизий (mixed-precision) позволяют значительно сократить энергопотребление и увеличить скорость выполнения, сохраняя при этом приемлемую точность. Однако, существующие RISC-V микропроцессоры не достаточно эффективно поддерживают исполнение таких сетей, из-за отсутствия соответствующих расширений инструкционных множеств (ISA) и оптимизаций на уровне аппаратуры. Это приводит к потере эффективности в вычислениях и снижению технологического прогресса в области deep learning inference. Мы предлагаем разработку MaRVIn, чтобы устранить эти проблемы и добиться эффективной и энергосохранной работы NN. #### Метод Мы предлагаем MaRVIn — кросс-уровневую систему копроектирования программного и аппаратного обеспечения, оптимизированную для RISC-V. На уровне ISA мы добавляем расширения для выполнения смешанных прецизий (2, 4 и 8 бит) для весов и активаций, а также внедряем многопайление для уменьшения задержек выполнения. На уровне аппаратного обеспечения, мы расширяем ALU для поддержки конфигурируемой точности, включая soft SIMD для эффективного выполнения 2-битных операций. Для повышения энергоэффективности мы используем технологию скалирования напряжения. Кроме того, мы предлагаем метод оптимизации сжатия моделей (pruning-aware fine-tuning) и градиентный поиск лучших вариантов микроархитектуры (greedy-based DSE) для эффективного выбора микроархитектурных решений. #### Результаты Мы проводили ряд экспериментов на широко известных DNN, таких как CIFAR10 и ImageNet. Наши результаты показывают, что MaRVIn обеспечивает скорость выполнения до 17.6x быстрее с менее чем 1% потери точности. Мы также показали, что наше решение выигрывает над имеющимися ISA-agnostic RISC-V ядрами, достигая до 1.8 TOPs/W. Эти результаты демонстрируют высокую эффективность и энергосберегающую способность нашей системы в интерпретации deep learning. #### Значимость MaRVIn может использоваться в различных приложениях, где необходима высокая производительность и энергоэффективность, включая беспилотные технологии, мобильные устройства и IoT. Он предоставляет ряд преимуществ, таких как более быстрая и эффективная работа с сетями, уменьшение затрат на вычисления и энергопотребление. Это может привести к значительным преиму

Annotation:

The evolution of quantization and mixed-precision techniques has unlocked new possibilities for enhancing the speed and energy efficiency of NNs. Several recent studies indicate that adapting precision levels across different parameters can maintain accuracy comparable to full-precision models while significantly reducing computational demands. However, existing embedded microprocessors lack sufficient architectural support for efficiently executing mixed-precision NNs, both in terms of ISA exte...

ID: 2509.15187v1 cs.LG, cs.AR

arXiv PDF

📄 An Improved Template for Approximate Computing

2025-09-12

Авторы:

M. Rezaalipour, F. Costa, M. Biasion, R. Otoni, G. A. Constantinides, L. Pozzi

## Контекст В последние годы интеграция нейронных сетей с решениями для edge devices стала ключевым направлением развития информационных технологий. Однако эта интеграция связана с серьезными затруднениями, связанными с оптимизацией ресурсов, в частности, с требованиями к энергопотреблению и точности. Отсюда возникает необходимость использования близкого к точному вычислению с уменьшением оперативного вклада, чтобы создать более эффективные решения. **Approximate computing**, в частности, стало популярным для решения этой задачи. Оно позволяет снизить энергопотребление, уменьшая точность вычислений в малых арифметических операторах. Улучшение методологии для такой оптимизации является мотивацией для данной работы, так как существующие методы часто имеют ограниченную мощь по нахождению оптимальных решений. ## Метод Данная работа развивает и совершенствует методологию **XPAT**, которая использует шаблон для преобразования логических схем с учетом того, что при решении задачи необходимо стремиться к минимизации объема логической схемы. Шаблон расширен для использования **parametrisable product sharing**, что позволяет лучше адаптироваться к задаче оптимизации объема. Метод предлагает подход, где шаблонные параметры действуют как промежуточные метрики, близки к реальной синтезированной плотности схемы. Это означает, что алгоритм может более точно направляться на решения с меньшим объемом, сравниваясь с оригинальным XPAT и другими современными алгоритмами. ## Результаты В ходе экспериментов были проверены алгоритмы на нескольких нейронных сетях, включая ResNet-18 и MobileNet. На основе синтезированных результатов показано, что предлагаемый подход не только снижает объем схемы, но и показывает лучшие результаты по сравнению с оригинальным XPAT и двумя другими современными подходами. Например, при оптимизации точности классификации ResNet-18 на edge-устройстве, проведенной с помощью предложенного метода, были получены результаты, показавшие меньшую суммарную потерю точности при достижении лучшего соотношения между энергопотреблением и точностью. Все это указывает на эффективность и эффектность предлагаемой методологии. ## Значимость Предложенный подход может быть применен в различных областях, включая компьютерного зрения, ИИ использующие нейронные сети на edge-устройствах. Он предоставляет преимущества в области энергоэффективности и мощности устройств, что является критически важным для применения нейронных сетей в реальном времени. Этот подход позволяет улучшить производительность без существенных потерь точности, что сделает его привлекательным для будущих решений в этой области.

Annotation:

Deploying neural networks on edge devices entails a careful balance between the energy required for inference and the accuracy of the resulting classification. One technique for navigating this tradeoff is approximate computing: the process of reducing energy consumption by slightly reducing the accuracy of arithmetic operators. In this context, we propose a methodology to reduce the area of the small arithmetic operators used in neural networks - i.e., adders and multipliers - via a small loss ...

ID: 2509.06162v1 cs.LG, cs.AR, B.2.1; B.6.3

arXiv PDF

📄 A Spatio-Temporal Graph Neural Networks Approach for Predicting Silent Data Corruption inducing Circuit-Level Faults

2025-09-10

Авторы:

Shaoqi Wei, Senling Wang, Hiroshi Kai, Yoshinobu Higami, Ruijun Ma, Tianming Ni, Xiaoqing Wen, Hiroshi Takahashi

#### Контекст Современные электронные системы, особенно те, которые используются в критически важных приложениях, чувствительны к мелким аварийным сбоям, которые могут привести к серьезным последствиям. Одна из таких проблем — **silent data corruption (SDE)**, которая возникает из-за временных дефектов или старения компонентов. Эти ошибки часто остаются незамеченными во время функциональных тестов, но могут привести к дефектам в последствии. Традиционные методы, такие как функциональное тестирование, требуют огромных ресурсов и являются дорогостоящими. Необходима эффективная, точная и автоматизированная система для прогнозирования и оценки риска SDE. #### Метод Мы предлагаем **способ определения риска SDE с использованием развитых графовых нейронных сетей (Graph Neural Networks, GNN)**. Наш подход, называемый **Spatio-Temporal Graph Convolutional Network (ST-GCN)**, отличается своей возможностью обрабатывать временные серии данных, связанные с электрическими схемами. Мы представляем схемы в виде **специальных графов**, где узлы представляют собой компоненты, а ребра — связи между ними. Используя **специальные модули для пространственной и временной обработки**, мы можем предсказывать **показатели вероятности повреждения** (Fault Impact Probabilities, FIPs) на разных циклах. Метод также поддерживает интеграцию с данными о тестировании, что позволяет улучшить точность и эффективность. #### Результаты Мы проверили наше решение на **ISAСS-89** — широко известной тестовой базе данных для группы электронных схем. Наши результаты показывают, что **ST-GCN** уменьшает время вычислений на **10 раз** по сравнению с традиционными методами, при этом сохраняя высокую точность. Мы также проверили, как **выбор тестовых точек**, определяемых с помощью FIPs, повышает обнаружение сложных, длительных ошибок. Это демонстрирует высокую эффективность нашего подхода в распределенных системах. #### Значимость Предлагаемый подход имеет большое значение для **тестирования и оптимизации электронных систем** в области электроники. Он может быть применен для **предсказания SDE** в различных системах, особенно тех, которые требуют высокой надежности (например, авиационной и медицинской отраслях). **Преимущество** нашего метода — быстрота, точность и эффективность в предсказании длительных ошибок, что минимизирует требования к ресурсам. Мы также рассмотрели возможность использования нашего подхода в **тест-стратегиях** и **электронном проектировании**. #### Выводы Наша работа доказывает, что использование **графовых нейронных сетей** для обработки специальных **спектров SDE** в элект

Annotation:

Silent Data Errors (SDEs) from time-zero defects and aging degrade safety-critical systems. Functional testing detects SDE-related faults but is expensive to simulate. We present a unified spatio-temporal graph convolutional network (ST-GCN) for fast, accurate prediction of long-cycle fault impact probabilities (FIPs) in large sequential circuits, supporting quantitative risk assessment. Gate-level netlists are modeled as spatio-temporal graphs to capture topology and signal timing; dedicated sp...

ID: 2509.06289v1 cs.LG, cs.AR, cs.ET, B.7.3

arXiv PDF

📄 Exploration of Low-Power Flexible Stress Monitoring Classifiers for Conformal Wearables

2025-08-30

Авторы:

Florentia Afentaki, Sri Sai Rakesh Nakkilla, Konstantinos Balaskas, Paula Carolina Lozano Duarte, Shiyi Jiang, Georgios Zervakis, Farshad Firouzi, Krishnendu Chakrabarty, Mehdi B. Tahoori

## Контекст Современные методы мониторинга стресса часто ограничиваются использованием симптомно-фокусированных интервенций, которые не могут предоставить континюоыный и доступный по стоимости анализ. На сегодняшний день, преимущественно используются решения, основанные на твёрдой электронике, например, на силиконовых микросхемах. Они могут обеспечить многозадачность, но их производительность недостаточно эффективна для лёгких и гибких устройств, что приводит к ограничениям в практическом применении для мониторинга в реальном времени. Напротив, гибкая электроника (FE) предлагает удобство в использовании и низкие затраты на производство, что делает её подходить для реализации реального времени мониторинга стресса. Однако, реализация сложных классификаторов, таких как машинного обучения (ML), в FE, требует решения вызовов, связанных с интеграцией и энергосбережением. Хотя ранее исследовались биосенсоры и аналого-цифровые преобразователи (ADC), дизайн классификаторов для распознавания стресса в FE-решениях остаётся нерешённой проблемой. Наша работа представляет первую подробную исследовательскую работу по дизайну низковольтных и гибких классификаторов для мониторинга стресса. ## Метод Мы разработали комплексный подход к дизайну низковольтных гибких классификаторов для мониторинга стресса. Этот подход включает в себя исследование различных моделей машинного обучения, методов выбора признаков и нейронных упрощений, чтобы достичь оптимальной связи между производительностью и энергопотреблением. Мы проанализировали более 1200 вариантов различных классификаторов, используя кастомные архитектуры с низкопрецизионными арифметическими операциями. Для оптимизации производительности и энергоэффективности, мы разработали полностью настраиваемые цифровые и аналоговые узлы. Методы оптимизации включают в себя минимизацию расходов на энергопотребление и уменьшение размера устройств, чтобы обеспечить их конформируемость и применяемость в новом классе лёгких и эргономичных трекинг-устройств. ## Результаты Мы провели эксперименты, используя широкий спектр данных для мониторинга стресса, включая данные с телеметрических датчиков и сенсоров, собранных в различных условиях. Наши результаты показали, что проектируемые классификаторы превышают существующие решения по точности классификации, в то же время сохраняя низкие потребление энергии и малый размер. Мы также провели эксперименты с различными методами упрощения нейронных сетей, чтобы добиться лучшей точности в реа

Annotation:

Conventional stress monitoring relies on episodic, symptom-focused interventions, missing the need for continuous, accessible, and cost-efficient solutions. State-of-the-art approaches use rigid, silicon-based wearables, which, though capable of multitasking, are not optimized for lightweight, flexible wear, limiting their practicality for continuous monitoring. In contrast, flexible electronics (FE) offer flexibility and low manufacturing costs, enabling real-time stress monitoring circuits. Ho...

ID: 2508.19661v1 cs.LG, cs.AR

arXiv PDF

📄 Beyond Tokens: Enhancing RTL Quality Estimation via Structural Graph Learning

2025-08-28

Авторы:

Yi Liu, Hongji Zhang, Yiwen Wang, Dimitris Tsaras, Lei Chen, Mingxuan Yuan, Qiang Xu

#### Контекст Регистр-трансфер-уровень (RTL) — ключевый этап в электронном проектировании, где конструкции программно-определяемых логических устройств (PLD) передаются в логическую схему. Оценка качества RTL-кода очень важна, так как она позволяет получить быструю обратную связь о ключевых метриках, таких как плотность и задержка, без необходимости выполнять трудоемкую логическую синтезирование. Несмотря на то, что недавние подходы, основанные на больших языковых моделях (LLMs), показали заметные улучшения в задачах оценки качества RTL, они недостаточно учитывают важность структурных семантик в данных. Таким образом, существует необходимость в разработке более точных методов оценки качества RTL, которые могут эффективно использовать структурные свойства кода. #### Метод Мы предлагаем StructRTL — новую структурно-ориентированную модель основанную на графах для оценки качества RTL. Метод использует графы управляющих потоков данных (CDFG) для представления структурных свойств RTL-кода. CDFG представляет собой поток команд внутри RTL-движка, позволяя лучше обнаруживать семантические характеристики проекта. Модель StructRTL оптимизирует структурно-ориентированные представления с помощью графового самосупервизионного обучения (graph self-supervised learning). Для повышения точности мы также внедрили стратегию знаний, основанную на дистилляции (knowledge distillation), чтобы передать низкоуровневые характеристики из пост-маппинговых сетей в модель CDFG. #### Результаты Мы провели ряд экспериментов, используя различные наборы данных RTL из различных проектов. Модель StructRTL показала существенное улучшение в качестве оценки RTL по сравнению с современными подходами. Мы измерили точность на ключевых метриках, таких как плотность, задержка и энергопотребление, и показали, что наш подход превосходит предыдущие результаты на проценты в десятках. Кроме того, мы проверили способность модели StructRTL работать с различными типами проектов и показали, что она обладает высокой универсальностью и может быть применена на различных стадиях разработки. #### Значимость Наш подход имеет широкие области применения в электронном проектировании. Эффективная оценка качества RTL позволяет уменьшить время синтеза, повысить эффективность и уменьшить затраты на разработку. Благодаря использованию структурной семантики, StructRTL предлагает более точные результаты по сравнению с традиционными методами, основанными только на контексте слов. Это может привести к повышению качества продуктов в различных жизненных циклах разработки, таких как уменьшение задержек, повышение плотности и энергоэффективность.

Annotation:

Estimating the quality of register transfer level (RTL) designs is crucial in the electronic design automation (EDA) workflow, as it enables instant feedback on key metrics like area and delay without the need for time-consuming logic synthesis. While recent approaches have leveraged large language models (LLMs) to derive embeddings from RTL code and achieved promising results, they overlook the structural semantics essential for accurate quality estimation. In contrast, the control data flow gr...

ID: 2508.18730v1 cs.LG, cs.AR

arXiv PDF

📄 Characterizing the Behavior of Training Mamba-based State Space Models on GPUs

2025-08-27

Авторы:

Trinayan Baruah, Kaustubh Shivdikar, Sara Prescott, David Kaeli

#### Контекст Современные трансформеры, основанные на моделях самоповторяющегося внимания (self-attention), доказали свою эффективность в задачах обработки текстов, звука и видео. Однако, их вычислительная сложность, пропорциональная квадрату длины входного последовательности, остается значительной проблемой при масштабировании. Альтернативным подходом являются State Space Models (SSM), которые снижают вычислительную сложность за счет использования различных архитектур, адаптированных для различных областей применения, таких как видео, текст и графы. Одним из таких SSM является Mamba, предлагающий простой и эффективный подход к решению задач связанных с последовательностями. Изучение поведения таких моделей во время обучения на GPU и их микроархитектурных потребностей является ключевым для оптимизации и масштабирования их производительности. #### Метод Мы разработали систему для эмуляции и анализа поведения моделей Mamba-based SSM во время обучения на GPU. Для этого была создана универсальная система, включающую различные архитектуры Mamba-based SSM, представляющие разные виды задач. Каждая модель была запущена в окружении с разными наборами параметров, такими как длина последовательности, размер батча и количество слоев. Мы анализировали различные аспекты производительности, включая использование памяти, частоту процессора, а также микроархитектурные оптимизации, влияющие на эффективность обучения. Это позволило нам получить подробные показатели для каждого этапа обучения и понять, какие микроархитектурные факторы влияют на производительность. #### Результаты Наши эксперименты показали, что Mamba-based SSM имеют значительно более низкую вычислительную сложность по сравнению с трансформерами, особенно при больших длинах последовательностей. Мы обнаружили, что оптимизации, такие как уменьшение числа операций свертки (convolutions) и использование эффективных методов памяти, сильно повышают производительность. Также были выявлены некоторые ограничения в GPU-реализациях, включая неоптимальные использования кэша и неэффективность в распараллеливании, что может стать препятствием для масштабирования. Мы также показали, что динамические сетки (dynamic graphs), используемые Mamba, могут устранить некоторые из этих проблем, улучшив использование ресурсов GPU. #### Значимость Результаты нашего исследования имеют высокую значимость для области машинного обучения и GPU-архитектур. Модели Mamba-based SSM предлагают более эффективный способ решения задач, связанных с последовательностями, чем трансформеры, что может привести к снижению расходов на вычисления и энер

Annotation:

Mamba-based State Space Models (SSM) have emerged as a promising alternative to the ubiquitous transformers. Despite the expressive power of transformers, the quadratic complexity of computing attention is a major impediment to scaling performance as we increase the sequence length. SSMs provide an alternative path that addresses this problem, reducing the computational complexity requirements of self-attention with novel model architectures for different domains and fields such as video, text g...

ID: 2508.17679v1 cs.LG, cs.AR, cs.CL

arXiv PDF

Показано 21 - 30 из 33 записей