From Intent to Execution: Multimodal Chain-of-Thought Reinforcement Learning for Precise CAD Code Generation

2508.10118v1 cs.LG, cs.CV 2025-08-15
Авторы:

Ke Niu, Haiyang Yu, Zhuofan Chen, Mengyang Zhao, Teng Fu, Bin Li, Xiangyang Xue

Резюме на русском

#### Контекст Машинно-управляемый дизайн (CAD) широко используется в инженерном проектировании и производстве, где требуется точность и компетентность. Однако существующие CAD-системы часто требуют значительного времени и усилий для моделирования, так как они зависят от экспертного знания и ручных операций. Искусственные нейросетевые модели, особенно те, которые используют технологии типа LLMs, стали помогать автоматизировать процессы, но в случае CAD-моделирования существуют ряд проблем: требования к логическому рассуждению, корректности синтаксиса и точности значений. Большинство существующих подходов столкнулись с трудностями в создании решений, которые бы учитывали все эти аспекты одновременно. Наша цель — разработать метод, который бы решал эти проблемы и позволял эффективно генерировать код CAD на основе естественного языка. #### Метод Мы предлагаем **CAD-RL**, фреймворк, основанный на Chain-of-Thought (CoT) и работающий на основе усовершенствованного пост-тренировочного развития с помощью эвристических подходов. Наша методика включает несколько ключевых элементов: 1. **Multimodal Chain-of-Thought (CoT):** мы используем CoT для обеспечения логического рассуждения в ходе моделирования. 2. **Goal-driven reinforcement learning (RL) post-training:** наша подходящая тренировка позволяет менять поведение модели в соответствии с целями решения задач. 3. **Заданные награды:** включаются три основных вида наград для тренировочного процесса: награда за выполнение, награда за точность геометрии и награда за внешнюю оценку. 4. **Оптимизационные стратегии:** включаются Trust Region Stretch для лучшего исследования, Precision Token Loss для улучшения точности параметров размеров, и Overlong Filtering для борьбы с шумом в наблюдениях. 5. **Dataset ExeCAD:** мы выпустили новую базу данных с реальными примерами CAD, включающую 16,540 задач, с решениями в виде естественного языка, запросов на моделирование и CADQuery-скриптами. #### Результаты Мы проверили CAD-RL на ExeCAD, сравнив его с различными нынешними подходами. Наши результаты показали, что CAD-RL добивается значительного улучшения качества моделей, в частности, превышает другие методы в логической точности, точности геометрии и эффективности выполнения. Мы также провели эксперименты, которые подтвердили, что наша технология выдает лучший результат в плане качества интерпретации и выполнения кода. #### Значимость Наш подход может применяться в различных областях, включая автоматизацию процессов CAD, создание современных продуктов, улучшение технологий инженерии. CAD-RL дает более точные и надежные решения, что может ускорить рабочий процесс и уменьшить человеческую о

Abstract

Computer-Aided Design (CAD) plays a vital role in engineering and manufacturing, yet current CAD workflows require extensive domain expertise and manual modeling effort. Recent advances in large language models (LLMs) have made it possible to generate code from natural language, opening new opportunities for automating parametric 3D modeling. However, directly translating human design intent into executable CAD code remains highly challenging, due to the need for logical reasoning, syntactic correctness, and numerical precision. In this work, we propose CAD-RL, a multimodal Chain-of-Thought (CoT) guided reinforcement learning post training framework for CAD modeling code generation. Our method combines CoT-based Cold Start with goal-driven reinforcement learning post training using three task-specific rewards: executability reward, geometric accuracy reward, and external evaluation reward. To ensure stable policy learning under sparse and high-variance reward conditions, we introduce three targeted optimization strategies: Trust Region Stretch for improved exploration, Precision Token Loss for enhanced dimensions parameter accuracy, and Overlong Filtering to reduce noisy supervision. To support training and benchmarking, we release ExeCAD, a noval dataset comprising 16,540 real-world CAD examples with paired natural language and structured design language descriptions, executable CADQuery scripts, and rendered 3D models. Experiments demonstrate that CAD-RL achieves significant improvements in reasoning quality, output precision, and code executability over existing VLMs.

Ссылки и действия