Understanding and Mitigating Errors of LLM-Generated RTL Code

2508.05266v1 cs.AR, cs.CL, cs.LG 2025-08-09
Авторы:

Jiazheng Zhang, Cheng Liu, Huawei Li

Резюме на русском

**Резюме** Статья рассматривает проблемы, возникающие при генерации RTL-кода с использованием БОЛЬШИХ языковых моделей (LLM), а именно несоответствие результатов предсказаний к задаче и недостаточный уровень знаний в области RTL-программирования. Авторы проводят подробный анализ ошибок и выделяют их основные причины: недостаточное знание RTL-программирования, непонимание понятий цифровых схем, неясность в описании дизайна и неверное восприятие мультимодальных входных данных. Чтобы улучшить качество генерации, предлагается использовать методы вспомогательной генерации (RAG), основанные на дополнительных знаниях RTL-программирования, нормализации входных данных с помощью специальных правил редактирования и использованием инструментов для преобразования мультимодальных данных в удобный для модели формат. Для оставшихся ошибок предлагается использовать итеративное дебагирование (симуляция, локализация и исправление ошибок). Основным выводом является, что внедрение этих технологий в LLM-фреймворк улучшает точность генерации RTL-кода до 91.0% на VerilogEval, что значительно превышает базовую модель. Это подтверждает эффективность предложенных методов.

Abstract

Despite the promising potential of large language model (LLM) based register-transfer-level (RTL) code generation, the overall success rate remains unsatisfactory. Errors arise from various factors, with limited understanding of specific failure causes hindering improvement. To address this, we conduct a comprehensive error analysis and manual categorization. Our findings reveal that most errors stem not from LLM reasoning limitations, but from insufficient RTL programming knowledge, poor understanding of circuit concepts, ambiguous design descriptions, or misinterpretation of complex multimodal inputs. Leveraging in-context learning, we propose targeted error correction techniques. Specifically, we construct a domain-specific knowledge base and employ retrieval-augmented generation (RAG) to supply necessary RTL knowledge. To mitigate ambiguity errors, we introduce design description rules and implement a rule-checking mechanism. For multimodal misinterpretation, we integrate external tools to convert inputs into LLM-compatible meta-formats. For remaining errors, we adopt an iterative debugging loop (simulation-error localization-correction). Integrating these techniques into an LLM-based framework significantly improves performance. We incorporate these error correction techniques into a foundational LLM-based RTL code generation framework, resulting in significantly improved performance. Experimental results show that our enhanced framework achieves 91.0\% accuracy on the VerilogEval benchmark, surpassing the baseline code generation approach by 32.7\%, demonstrating the effectiveness of our methods.

Ссылки и действия