MeshCoder: LLM-Powered Structured Mesh Code Generation from Point Clouds

2508.14879v1 cs.GR, cs.CV 2025-08-22
Авторы:

Bingquan Dai, Li Ray Luo, Qihong Tang, Jie Wang, Xinyu Lian, Hao Xu, Minghan Qin, Xudong Xu, Bo Dai, Haoqian Wang, Zhaoyang Lyu, Jiangmiao Pang

Резюме на русском

## Контекст Реконструкция 3D-объектов в редактируемые программные модели является ключевым заданием для таких областей, как обратная инженерия, редактирование геометрии и синтез новых моделей. Однако существующие методы часто ограничиваются доменом специализированных языков (DSL) и небольшими наборами данных, что ограничивает их возможности моделировать сложные геометрические структуры. Это приводит к неэффективности в обработке разнообразных требований к реконструкции и значительно сужает потенциал приложений. MeshCoder — это инновационный подход, который решает эти проблемы. Он способен преобразовывать 3D-объекты, представленные в виде точечных массивов, в полностью редактируемые Blender Python-скрипты. Такой подход позволяет расширить возможности реконструкции до сложных и реалистичных геометрий, а также обеспечить гибкую интерактивную моделируемую геометрию. Это улучшает возможности для обратной инженерии, творческого ретуширования и даже синтеза новых моделей, основываясь на имеющихся данных. ## Метод MeshCoder строится на многомодальной структуре, используя высокоэффективные модели языкового моделирования (LLM) для преобразования точечных массивов в код. Главным инструментом является развитый набор Blender Python-API, который позволяет синтезировать геометрические модели с высочайшим уровнем детализации. Эти API используются для разложения кода на отдельные семантические части, чтобы обеспечить понятную структуру и легкость модификации. Мы создали большую выборку парных данных, состоящую из 3D-объектов и соответствующих Python-скриптов, где каждый объект декомпозируется на отдельные семантические части. Этот набор данных был использован для обучения LLM. Модель обладает высоким уровнем точности и способностью работать в реальном времени, что позволяет создавать и редактировать 3D-модели сложных форм с помощью простого изменения кода. ## Результаты Мы провели эксперименты, сравнивая MeshCoder с другими существующими подходами. Наши результаты показали, что MeshCoder достигает высокой точности в задаче преобразования точечных массивов в код. Он способен генерировать код для моделей с очень сложной геометрией, что демонстрирует его выигрыш в гибкости и верификации. Мы также проверили его на редактировании геометрии, и он стал лучшим в классе по скорости и точности модификаций. ## Значимость MeshCoder открывает новые перспективы в поле обратной инженерии, 3D-моделирования и творческого дизайна. Он позволяет быстро редактировать геометрию и создавать новые модели, используя простой язык программиро

Abstract

Reconstructing 3D objects into editable programs is pivotal for applications like reverse engineering and shape editing. However, existing methods often rely on limited domain-specific languages (DSLs) and small-scale datasets, restricting their ability to model complex geometries and structures. To address these challenges, we introduce MeshCoder, a novel framework that reconstructs complex 3D objects from point clouds into editable Blender Python scripts. We develop a comprehensive set of expressive Blender Python APIs capable of synthesizing intricate geometries. Leveraging these APIs, we construct a large-scale paired object-code dataset, where the code for each object is decomposed into distinct semantic parts. Subsequently, we train a multimodal large language model (LLM) that translates 3D point cloud into executable Blender Python scripts. Our approach not only achieves superior performance in shape-to-code reconstruction tasks but also facilitates intuitive geometric and topological editing through convenient code modifications. Furthermore, our code-based representation enhances the reasoning capabilities of LLMs in 3D shape understanding tasks. Together, these contributions establish MeshCoder as a powerful and flexible solution for programmatic 3D shape reconstruction and understanding.

Ссылки и действия