📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня
Авторы:

Amulya Bhattaram, Janani Ramamoorthy, Ranit Gupta, Diana Marculescu, Dimitrios Stamoulis

## Контекст Область исследования связана с автоматизацией рабочих процессов в сфере дизайна и оптимизации цифровых систем. Особенностью данной области является специфичность задач, включая синтез потоков выполнения, оптимизацию RTL-кода, а также требования к высокому качеству и достоверности результатов. Затруднения возникают из-за нехватки доступных ресурсов HDL и EDA, что приводит к затратам времени и ресурсов на ручное создание и корректировку рабочих процессов. Эта ситуация мотивирует развитие универсальных методов автоматизации, уменьшающих стоимость и улучшающих эффективность. ## Метод Предлагаемый подход, VeriMaAS, является многоагентным фреймворком, разработанным для автоматического составления рабочих процессов RTL-кода. Он использует формальную проверку с помощью HDL-инструментов, чтобы улучшить качество решений. Архитектура фреймворка включает в себя несколько модулей, которые совместно работают для синтеза, валидации и оптимизации RTL-кода. Метод основывается на динамической композиции агентов, позволяющих решать задачи с различной сложностью. Это подходящий выбор, так как он обеспечивает гибкость и эффективность в оптимизации, не требуя ручного вмешательства. ## Результаты Использовались наборы данных с RTL-задачами для синтеза. Эксперименты показали, что подход VeriMaAS улучшает прохождение проверок (pass@k) на 5-7% по сравнению с базовыми алгоритмами. Также был получен заметный снижение требований к обучению, так как необходимо сформировать только несколько сотен примеров для обучения. Это представляет собой определенную новизну в сравнении с традиционными технологиями, которые часто требуют больших объемов данных и дорогостоящих процессов тюнинга. ## Значимость Предложенный подход может использоваться в различных сферах, которые требуют автоматизированного дизайна и оптимизации RTL-кода. Он предлагает выгоды в скорости процесса и уменьшении затрат на ручное вмешательство. Это может привести к повышению эффективности разработки программного и аппаратного обеспечения, а также к снижению стоимости процесса. Потенциально, эта технология может стать ключом к более быстрой разработке и улучшению качества цифровых систем. ## Выводы Результаты показывают, что VeriMaAS является эффективным инструментом для автоматизации рабочих процессов в RTL-дизайне. Будущие исследования будут нацелены на расширение функциональности фреймворка, улучшение точности и отказоустойчивости, а также изучение применения в других областях, где автоматизация требует уменьшения затрат и улучшения качества
Annotation:
The rise of agentic AI workflows unlocks novel opportunities for computer systems design and optimization. However, for specialized domains such as program synthesis, the relative scarcity of HDL and proprietary EDA resources online compared to more common programming tasks introduces challenges, often necessitating task-specific fine-tuning, high inference costs, and manually-crafted agent orchestration. In this work, we present VeriMaAS, a multi-agent framework designed to automatically compos...
ID: 2509.20182v1 cs.AR, cs.AI
Авторы:

P. Ramkumar, S. S. Bharadwaj

#### Контекст Развитие и применение искусственного интеллекта в устройствах периферии становится все более важной задачей. Однако наиболее продвинутые процессы точки доступа (например, 360 мм²) сталкиваются с тем, что развитие мощных многофункциональных систем на одном чипе становится все более сложной и дорогостоящей задачей. Это вызвано неэффективностью процесса производства и высокой сложностью распределения ресурсов в централизованной архитектуре. Для эффективного решения проблем высокой энергоемкости и недостаточной гибкости архитектуры возникает необходимость разработки модульных решений, которые позволят повысить производительность, энергоэффективность и экономичность. #### Метод Разработка предлагаемой модели основывается на использовании модульного подхода к проектированию чиплотов (chiplet-based design). Архитектура состоит из четырех основных инновационных элементов: 1. **Динамического управления частотой и напряжением (Dynamic Voltage and Frequency Scaling, DVFS)**, которое адаптируется к работе чиплотов, обеспечивая эффективное управление энергопотреблением. 2. **Универсального протокола интерконнективного взаимодействия chiplet (Universal Chiplet Interconnect Express, UCIe)**, в котором включены расширения для структурированного потокового управления и сжатия данных. 3. **Распределенной криптографической защиты**, которая гарантирует безопасность данных на разных уровнях архитектуры. 4. **Интеллектуального распределения нагрузки**, которое позволяет переносить нагрузки на более подходящие чиплеты в зависимости от реального времени и сенсорных данных. На основе этой модели создана система, включающая 7-нанометровый чип RISC-V, два 5-нанометровых AI-акселератора, 16 ГБ HBM3-памяти и контроллеры мощности. #### Результаты На тестах MobileNetV2, ResNet-50 и обработке видео в реальном времени архитектура продемонстрировала выдающиеся результаты. Она показала снижение задержки на ~14,7%, повышение пропускной способности на ~17,3% и снижение энергопотребления на ~16,2% по сравнению с базовым chiplet-дизайном. Эти улучшения приводят к увеличению эффективности на 40,1% (то есть, до 3,5 мДж в одной инференции MobileNetV2 на 860 мВт/244 изображений/с) при сохранении возможности работы в режиме реального времени (менее 5 мс). #### Значимость Модульный подход, примененный в этой работе, предоставляет перспективную архитектуру для следующего поколения устройств на основе искусственного интеллекта. Он обеспечивает более высокую энергоэффективность, гибкость и экономичность, которые являются ключевыми для решения задач мобильных, интеллектуальных и сетевы
Annotation:
Achieving high performance, energy efficiency, and cost-effectiveness while maintaining architectural flexibility is a critical challenge in the development and deployment of edge AI devices. Monolithic SoC designs struggle with this complex balance mainly due to low manufacturing yields (below 16%) at advanced 360 mm^2 process nodes. This paper presents a novel chiplet-based RISC-V SoC architecture that addresses these limitations through modular AI acceleration and intelligent system level opt...
ID: 2509.18355v1 cs.AR, cs.AI
Авторы:

Lennart Bamberg, Filippo Minnella, Roberto Bosio, Fabrizio Ottati, Yuebin Wang, Jongmin Lee, Luciano Lavagno, Adam Fuks

#### Контекст Активное развитие интеллектуальных систем на основе глубоких нейронных сетей приводит к появлению новых требований к вычислительной мощности и эффективности, особенно в ресурс-ограниченных средах, таких как края сети (edge). Нейропроцессоры (NPUs) возникают как решение для эффективной обработки нейросетевых моделей на краях сети. Однако показатели "на высоте", такие как TOPS (транзакций в секунду), часто оказываются малоинформативными в реальных условиях, так как не соотносятся с фактической эффективностью и часто приводят к значительным издержкам на силиконовый производство. Необходимо развивать архитектуры NPUs, которые будут оптимизированы для эффективного использования вычислительных ресурсов, сохраняя гибкость для различных задач. В этой работе представляется эффективный NPU "eIQ Neutron", интегрированный в современный коммерческий модуль для многоцелевых приложений (MPU), вместе с компилятором, оптимизированным для вычислений и данных. #### Метод "eIQ Neutron" использует данные-драйверный подход для оптимизации вычислительных ресурсов и данных. Архитектура NPU основывается на гибкой структуре, которая позволяет адаптироваться к разным типам нейросетевых моделей. Для увеличения эффективности вычислений и уменьшения трафика данных, компилятор работает на основе ограниченной программировальной модели, которая генерирует оптимальные коды для различных типов задач. Эта архитектура позволяет фокусироваться на использовании ресурсов наиболее эффективно, чтобы достичь высокой производительности при ограниченных вычислительных и памятных ресурсах. #### Результаты В ходе экспериментов, проведенных на стандартных бенчмарках, "eIQ Neutron" показал средний прирост производительности 1,8 раза (до 4 раз в пиковых условиях) по сравнению с ведущим NPU и компилятором в задачах воспроизведения видео, обработки изображений и других задач. Даже при работе на NPU с двойным объемом вычислительных ресурсов и памяти, "eIQ Neutron" показал до 3,3 раза более высокую производительность. Эти результаты достигнуты благодаря оптимальной организации вычислительных процессов и гибкой архитектуре, которая позволяет использовать ресурсы более эффективно. #### Значимость Решение, представленное в этой работе, может быть использовано в различных приложениях, включая обработку реального времени, распознавание речи, распознавание образов и другие задачи, требующие высокой производительности в ресурс-ограниченных средах. Основные преимущества технологии "eIQ Neutron" заключаются в том, что она позволяет повысить эффективность вычислений, сократить расходы на силиконовый
Annotation:
Neural Processing Units (NPUs) are key to enabling efficient AI inference in resource-constrained edge environments. While peak tera operations per second (TOPS) is often used to gauge performance, it poorly reflects real-world performance and typically rather correlates with higher silicon cost. To address this, architects must focus on maximizing compute utilization, without sacrificing flexibility. This paper presents the eIQ Neutron efficient-NPU, integrated into a commercial flagship MPU, a...
ID: 2509.14388v1 cs.AR, cs.AI, cs.LG
Авторы:

Yujun Lin, Zhekai Zhang, Song Han

## Контекст Современные тензорные приложения, особенно фундаментальные модели и приложения в области генеративного ИИ, требуют многомодального ввода (образов и языка), что приводит к повышению требований к гибкой архитектуре акселераторов. Существующие фреймворки сталкиваются с проблемой компромисса между гибкостью проектирования и производительностью генерации RTL: либо они ограничены в нюансах, либо не могут автоматически генерировать RTL. Для решения этой проблемы мы предлагаем фреймворк LEGO, который автоматически генерирует специализированные архитектуры для тензорных приложений и выводит готовый к синтезу RTL-код. Он не требует ручной разработки шаблонов RTL, что позволяет увеличить эффективность разработки. ## Метод LEGO представляет собой двухуровневую архитектуру: спереди и сзади. В представлении спереди, фреймворк использует аффинное преобразование для исследования взаимосвязи между функциональными единицами, синтезирует систему памяти и объединяет различные распределенные данные с помощью анализа повторного использования данных. В представлении сзади, фреймворк преобразует граф железа на уровне примитивов, выполняет оптимизации на уровне низкого уровня и применяет линейные алгоритмы программирования для оптимального вставления регистров труб и уменьшения накладных расходов при переключении распределенных данных. ## Результаты Мы провели эксперименты для оценки производительности и энергоэффективности LEGO. Он достиг 3.2x скоростного прироста и 2.4x энергоэффективности по сравнению с Gemmini, предшествующим решением. Фреймворк также продемонстрировал универсальность, генерируя архитектуру для различных моделей фундаментальных приложений в области генеративного ИИ. Эти результаты подтверждают эффективность LEGO в адаптации к различным требованиям моделей. ## Значимость LEGO может применяться в сфере развития акселераторов для генеративных моделей ИИ, видео- и изображенческих приложений. Он предлагает высокую гибкость в проектировании, снижает время шейпинга и повышает производительность и энергоэффективность. Это может привести к значительным преимуществам в быстродействии и энергосбережении для приложений, требующих высокой производительности и эффективности. ## Выводы Результаты нашего исследования показали, что LEGO является эффективным инструментом для автоматического генерирования архитектур для тензорных приложений. Мы планируем расширить возможности фреймворка, включив дополнительные оптимизации и поддержку дополнительных архитектур для более широкого спект
Annotation:
Modern tensor applications, especially foundation models and generative AI applications require multiple input modalities (both vision and language), which increases the demand for flexible accelerator architecture. Existing frameworks suffer from the trade-off between design flexibility and productivity of RTL generation: either limited to very few hand-written templates or cannot automatically generate the RTL. To address this challenge, we propose the LEGO framework, which targets tensor appl...
ID: 2509.12053v1 cs.AR, cs.AI, cs.LG
Авторы:

Shvetank Prakash, Andrew Cheng, Olof Kindgren, Ashiq Ahamed, Graham Knight, Jed Kufel, Francisco Rodriguez, Arya Tschand, David Kong, Mariam Elgamal, Jerry Huang, Emma Chen, Gage Hills, Richard Price, Emre Ozer, Vijay Janapa Reddi

## Контекст Интеграция вычислительных систем в повседневные предметы, такие как медицинские пластыри и упаковка продуктов, является кллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллл
Annotation:
We present FlexiFlow, a lifetime-aware design framework for item-level intelligence (ILI) where computation is integrated directly into disposable products like food packaging and medical patches. Our framework leverages natively flexible electronics which offer significantly lower costs than silicon but are limited to kHz speeds and several thousands of gates. Our insight is that unlike traditional computing with more uniform deployment patterns, ILI applications exhibit 1000X variation in oper...
ID: 2509.08193v1 cs.AR, cs.AI, cs.ET
Авторы:

Pragun Jaswal, L. Hemanth Krishna, B. Srinivasu

## Контекст Исследование сосредоточено на разработке энергоэффективных аппроксимативных множителей для глубоких нейронных сетей (DNN). Эти сети широко применяются в различных областях, включая обработку изображений, текста и речевых сигналов. Однако аппаратные реализации DNN часто сталкиваются с ограничениями по энергопотреблению, особенно в устройствах с ограниченным питанием, таких как мобильные устройства и IoT-гаджеты. Существующие аппаратные решения либо требуют высокого энергопотребления, либо ухудшают точность распознавания. Мотивация заключается в создании энергоэффективной аппаратной архитектуры, которая обеспечивает высокую точность за счет приемлемых ошибок в вычислениях. ## Метод Предложенная архитектура основывается на использовании 4:2-компрессора, вставленного в 8x8-множитель. 4:2-компрессор, представляющий собой однонаправленный компрессор с одним сочетательным ошибком, позволяет снизить энергопотребление, оставаясь при этом точным в большинстве случаев. Множитель интегрирован в пользовательскую аппаратную реализацию слоя свертки DNN. Также использован алгоритм ранжирования, позволяющий выбирать наиболее подходящие комбинации для уменьшения ошибок. Этот подход применен к нейросетям, обученным на задачах распознавания изображений и убирания шума. ## Результаты Экспериментальные результаты показали, что предложенный множитель эффективен в сочетании с DNN. Например, в задаче распознавания изображений, проводимой на конфигурации кастомного слоя свертки, аппаратная реализация демонстрирует до 30.24% энергоэффективности по сравнению с лучшими альтернативными множителями. В задаче убирания шума с использованием пользовательского аппаратного решения, основанного на подходе с 4:2-компрессором, сеть показала улучшение PSNR (Peak Signal-to-Noise Ratio) и SSIM (Structural Similarity Index Measure) по сравнению с другими аппроксимативными решениями. Также в задаче распознавания рукописных цифр сеть сохранила высокую точность классификации. ## Значимость Предложенная архитектура предлагает значительные преимущества в области энергосберегающих DNN-решений. Она применяется в сценариях, где необходимо сочетание высокой эффективности и приемлемой точности, что делает ее подходящим для устройств с ограниченным питанием. Этот подход имеет потенциал для улучшения работы нейронных сетей в приложениях, таких как здравоохранение, IoT, мобильные приложения и компьютерного зрения. Он также открывает пути для будущих исследований в области энергоэффективных DNN-решений, включая исследования уменьшения о
Annotation:
This paper proposes an low power approximate multiplier architecture for deep neural network (DNN) applications. A 4:2 compressor, introducing only a single combination error, is designed and integrated into an 8x8 unsigned multiplier. This integration significantly reduces the usage of exact compressors while preserving low error rates. The proposed multiplier is employed within a custom convolution layer and evaluated on neural network tasks, including image recognition and denoising. Hardware...
ID: 2509.00764v1 cs.AR, cs.AI
Авторы:

Zacharia A. Rudge, Dario Izzo, Moritz Fieback, Anteneh Gebregiorgis, Said Hamdioui, Dominik Dold

## Контекст Прогресс в области искусственного интеллекта (AI) в последние годы открыл широкие возможности для его использования в космических приложениях. Однако этот потенциал ограничен недостатком энергии и опасностью высшего радиационного воздействия в микро- и научных грузовых носителях. Эти ограничения создают значительные вызовы при развитии систем на базе искусственного интеллекта, необходимых для выполнения различных задач на борту. Методология точного управления и навигации, основанная на архитектуре нейронных сетей, требует высокой скорости вычислений и энергоэффективности. Это делает важной разработку эффективных аппаратных ускорителей для нейронных сетей, в том числе с использованием возможностей необычных материалов, таких как memristors. ## Метод Предлагаемый подход к ускорению нейронных сетей для управления и навигации основан на использовании memristors, таких как Phase-Change Memory (PCM) и Resistive Random-Access Memory (RRAM). Эти два типа мемристов используются для реализации внутри-памятного вычисления (in-memory computing), позволяющего эффективно обрабатывать вычислительные задачи нейронных сетей. Рассматривается нейросеть Guidance and Control Neural Network (G\&CNET), которая акселерацией memristors была протестирована в различных условиях, включая неидеальные характеристики мемристов, такие как шум и дряблость состояния. Экспериментальная модель была проверена для проверки точности и надежности сети в условиях различных сетевых архитектур и нагрузок. ## Результаты Экспериментальные результаты показали, что memristive accelerator может эффективно ускорять нейронную сеть для управления и навигации, даже в условиях шумов и дряблости. Однако было выявлено, что шум может иметь существенное влияние на точность распознавания. Была также проверена возможность переучивания сети после расплавления мемристов, что привело к восстановлению их вычислительной производительности. Эти результаты показали, что мемристы могут быть эффективными для управления и навигации в космических приложениях, хотя требуется дополнительное исследование для улучшения их точности и устойчивости. ## Значимость Возможности memristor-based accelerators могут иметь значительное применение в космических приложениях, включая возможность использования в системах навигации и управления в тяжелой радиационной среде. Эти решения могут оказаться дешевле и более эффективными в сравнении с существующими ассиметричными цифровыми устройствами. Более того, использование memristors может сделать глубокое обучение более экологично и энергоэффективным, что является ключевым аспектом для развития систем в космосе. ## Выводы Результаты ис
Annotation:
In recent years, the space community has been exploring the possibilities of Artificial Intelligence (AI), specifically Artificial Neural Networks (ANNs), for a variety of on board applications. However, this development is limited by the restricted energy budget of smallsats and cubesats as well as radiation concerns plaguing modern chips. This necessitates research into neural network accelerators capable of meeting these requirements whilst satisfying the compute and performance needs of the ...
ID: 2509.02369v1 cs.AR, cs.AI, cs.SY, eess.SY
Авторы:

Deepak Kumar, Divakar Yadav, Yash Patel

#### Контекст Современные модели глубокого обучения, особенно в области естественного языка, набирают все большую популярность в силу их приложений в различных сферах. Однако существуют значительные проблемы с эффективностью использования ресурсов, включая вычислительные мощности и энергию. Одним из ключевых аспектов является необходимость оптимизировать модели для более эффективного их использования в реальном мире. Одним из таких подходов является использование микса экспертов (Mixture of Experts, MoE), который позволяет уменьшить число неактивных параметров модели, сохраняя высокую эффективность вывода. В этом исследовании анализируется GPT-OSS-20B, модель с архитектурой MoE, которая стремится обеспечить высокую эффективность с помощью активного управления параметрами. #### Метод Для оценки эффективности GPT-OSS-20B был проведен подробный эксперимент с использованием единственного GPU (H100) c технологией bf16. Методы оценки включали измерение true time-to-first-token (TTFT), full-decode throughput (TPOT), end-to-end latency percentiles, peak VRAM с использованием past key values (PKV), а также энергопотребление. Для сравнения использовались две другие модели: Qwen3-32B и Yi-34B. Эксперимент проводился с 2048-token контекстом и 64-token декодом. Особое внимание уделялось измерению тактов в секунду (TPOT), а также энергоэффективности модели. #### Результаты Результаты экспериментов показали, что GPT-OSS-20B достигает высокой эффективности в сравнении с двумя другими моделями. Она предоставляет более высокий TPOT (токенов в секунду) и токены на Джоуль (токены в 1000 токенов), что позволяет сократить энергопотребление. Хотя TTFT GPT-OSS-20B выше, это связано с перераспределением ресурсов в модели MoE. Также было измерено peak VRAM с использованием PKV, и выявлено, что GPT-OSS-20B потребляет 31.7% меньше VRAM, чем Qwen3-32B. Это позволяет модели использоваться на устройствах с более ограниченным объемом VRAM. #### Значимость Эффективность GPT-OSS-20B делает ее привлекательной для широкого спектра приложений, включая системы рекомендаций, беседы с пользователем и другие сценарии, где эффективность ресурсов критична. Нейронная сеть показала выгоду в том, что 17.3% активных параметров обеспечивают высокую эффективность в сравнении с более тяжелыми моделями. Это может привести к увеличению производительности и экономии ресурсов в различных деплоймент-центричных сценариях. #### Выводы GPT-OSS-20B, несмотря на свою молодость в качестве MoE-модели, показала выдающиеся результаты в эффективности и энергосбережении. Она обес
Annotation:
We present a single-GPU (H100, bf16) evaluation of GPT-OSS-20B (Mixture-of-Experts; 20.9B total, approx. 3.61B active) against dense baselines Qwen3-32B and Yi-34B across multiple dimensions. We measure true time-to-first-token (TTFT), full-decode throughput (TPOT), end-to-end latency percentiles, peak VRAM with past key values (PKV) held, and energy via a consistent nvidia-smi-based sampler. At a 2048-token context with 64-token decode, GPT-OSS-20B delivers higher decode throughput and tokens p...
ID: 2508.16700v1 cs.AR, cs.AI, cs.DC, cs.PF
Авторы:

Mengyuan Yin, Benjamin Chen Ming Choong, Chuping Qu, Rick Siow Mong Goh, Weng-Fai Wong, Tao Luo

## Контекст На передовой интеллектуальной технике возникают все более строгие требования к энергоэффективности и высокой точности. Одним из ключевых инструментов являются сети с нелинейными активационными функциями, которые улучшают точность и интерпретируемость моделей. Однако такие функции часто требуют высокой вычислительной сложности, что не допускается в системах с ограниченными ресурсами, таких как низкоуровневые устройства ИИ. Это приводит к проблемам в интеграции этих моделей с энергоэффективными системами. ## Метод Наш метод основывается на подходе, использующем реconfigurable lookup table для FPGA. Мы используем fine-grained quantization и adaptive lookup tables для точного представления и вычисления необходимых функций. Это позволяет сократить время вычислений и энергопотребление, обеспечив высокую точность. Также мы разработали алгоритм для dynamic hardware specialization, чтобы обеспечить оптимизацию для различных моделей и данных во время выполнения. Это гарантирует эффективность и адаптивность наших решений. ## Результаты Мы провели эксперименты с Kolmogorov-Arnold Networks (KANs), в которых нелинейные активационные функции играют ключевую роль. Наши результаты показали, что FPGA-based design эффективно обрабатывает высокое число активационных функций, демонстрируя скорость вычислений, превосходящую edge CPUs и GPUs в $10^4$ раз. Это достигается без потери точности и при минимальном затратном использовании ресурсов. ## Значимость Наш подход имеет широкие применения в системах с ограниченными ресурсами, таких как edge AI, IoT, и устройства с требованиями к энергоэффективности. Он обеспечивает высокую точность, быструю обработку и энергоэффективность, позволяя развертывать сложные модели с нелинейными функциями на устройствах с ограниченной мощностью. Это позволяет улучшить энергоэффективность и точность в реальном времени, что крайне важно для приложений в real-time AI. ## Выводы Наша работа показала, что FPGA-based lookup table позволяет эффективно решать проблему вычислительной сложности нелинейных функций в моделях AI на энергоэффективных устройствах. Мы планируем дальнейшие исследования для расширения этого подхода на другие модели и устройства, чтобы повысить его широкое применение в AI-системах.
Annotation:
Learned activation functions in models like Kolmogorov-Arnold Networks (KANs) outperform fixed-activation architectures in terms of accuracy and interpretability; however, their computational complexity poses critical challenges for energy-constrained edge AI deployments. Conventional CPUs/GPUs incur prohibitive latency and power costs when evaluating higher order activations, limiting deployability under ultra-tight energy budgets. We address this via a reconfigurable lookup architecture with e...
ID: 2508.17069v1 cs.AR, cs.AI
Авторы:

Ahmed Allam, Youssef Mansour, Mohamed Shalan

#### Контекст Регистр-трансфер-уровень (RTL) — ключевая ступень в проектировании интегральных схем (ASIC). Существующие технологии, основанные на текстовых описаниях RTL, сталкиваются с рядом проблем. Ограниченные возможности встроенного кода, неэффективная настройка процессов и отсутствие возможности автоматического проектирования сложных систем требуют новых подходов. Большие языковые модели (LLMs) показали способность генерировать код RTL с высокой точностью, однако они не могут выполнять код, дебажить его и хранить долгосрочную память. Таким образом, требуется комбинация методов, которая могла бы вывести LLMs на новый уровень взаимодействия с процессом проектирования ASIC. #### Метод ASIC-Agent — автономная система, основанная на многоагентной архитектуре. Она включает в себя специализированные под-агенты, которые выполняют задачи RTG (RTL Generation), RTV (RTL Verification), OpenLane hardening и Caravel chip integration. Такой подход позволяет разделить универсальные задачи LLMs на более узкие, которые могут быть специализированы и выполняться в определенных областях. Основная цель — улучшить качество RTL-кода, ускорить процессы и обеспечить долгосрочную память и удобство работы. Для этого оптимизирована входная система с помощью текстовой интерфейса и векторной базы данных, включающей документацию, API-справочники, ошибки и советы от сообщества open-source silicon. #### Результаты Мы провели эксперименты, используя различные базы LLMs, включая Claude 4 Sonnet. Результаты показали, что ASIC-Agent успешно решает различные задачи проектирования ASIC, начиная от генерации RTL-кода до его верификации, гармонизации с OpenLane и интеграции в Caravel. Мы использовали ASIC-Agent-Bench, первый бенчмарк для оценки производительности агентских систем в сфере проектирования ASIC. Отчетленность результатов показала, что ASIC-Agent не только ускоряет процессы сборки и проверки, но и обеспечивает высокая точность в реализации задач. #### Значимость ASIC-Agent может применяться в разработке и промышленном производстве ASIC, а также в обучении новых инженеров, так как он экономит время на рутинных задачах. Он предоставляет высокую точность, ускорение процессов и удобство в использовании. В будущем, ASIC-Agent может быть расширен для включения дополнительных инструментов и задач, таких как анализ энергопотребления и оптимизация производительности. #### Выводы ASIC-Agent демонстрирует перспективу ускорения ASIC-проектирования, автоматизации рутинных задач и улучшения точности реализации. Наша работа раскрывает перспективы для дальнейшего исследования в области многоагентных систем, автоматизированных с
Annotation:
Large Language Models (LLMs) have demonstrated remarkable capabilities in Register Transfer Level (RTL) design, enabling high-quality code generation from natural language descriptions. However, LLMs alone face significant limitations in real-world hardware design workflows, including the inability to execute code, lack of debugging capabilities, and absence of long-term memory. To address these challenges, we present ASIC-Agent, an autonomous system designed specifically for digital ASIC design...
ID: 2508.15940v1 cs.AR, cs.AI, cs.CL, cs.DC, cs.MA
Показано 21 - 30 из 41 записей