DATR: Diffusion-based 3D Apple Tree Reconstruction Framework with Sparse-View

2508.19508v1 cs.RO, cs.CV 2025-08-29
Авторы:

Tian Qiu, Alan Zoubi, Yiyuan Lin, Ruiming Du, Lailiang Cheng, Yu Jiang

Резюме на русском

#### Контекст Цифровые копии в реальном времени (digital twin) предлагают перспективы трансформации для мониторинга в реальном времени и симуляции роботов, используя точные виртуальные двойники физических объектов. Основой этих систем является 3D-реконструкция с высокой геометрической точностью. Однако существующие методики сталкиваются с трудностями при работе под полярными условиями, особенно при наличии скудных и затененных обзоров. Данное исследование разрабатывает рамформу DATR (Diffusion-based 3D Apple Tree Reconstruction) для 3D-реконструкции деревьев яблони из скудных обзоров. Фреймворк работает в двух стадиях: первая стадия применяет бортовые сенсоры и базовые модели для получения масок деревьев, которые исключают фоновую информацию. Вторая стадия включает в себя диффузионную модель и модель общего реконструктора для генерирования трехмерных моделей и нейронных полей. Эта рамформа была протестирована как на реальных, так и на синтетических данных. #### Метод DATR состоит из двух стадий. В первой стадии используется комбинация бортовых сенсоров и базовых моделей для получения масок деревьев в сложных полярных условиях. Эти маски используются для отфильтрования фоновых данных в многомодальных изображениях. Во второй стадии применяются диффузионная модель для построения трехмерных моделей и модель общего реконструктора для генерирования нейронных полей. Обучение диффузионной модели и модели общего реконструктора проводилось на синтетических данных, сгенерированных Real2Sim. Набор реальных данных включал шесть деревьев с измеренными территориальными значениями, а синтетический набор представлял собой структурно разнообразные деревья. #### Результаты DATR показал высокую точность реконструкции в сравнении с существующими методами на двух наборах данных. Он предоставил трехмерные модели деревьев с уровнем детализации, приближающимся к результатам промышленных лазерных сканеров, но с значительно нижей стоимостью и более высокой скоростью. Для оценки характеристик деревьев (например, ширины и высоты), DATR достиг результатов, приближающихся к промышленным сканерам, с повышенной производительностью примерно в 360 раз. #### Значимость DATR может применяться в сельскохозяйственных системах для получения цифровых двойников для мониторинга, оценки здоровья растений и оптимизации управления фермы. Он предлагает преимущества в скорости, стоимости и удобстве в использовании по сравнению с традиционными лазерными сканерами. Этот подход может также иметь значимые приложения в других областях, таких как транспорт, жилищное строитель

Abstract

Digital twin applications offered transformative potential by enabling real-time monitoring and robotic simulation through accurate virtual replicas of physical assets. The key to these systems is 3D reconstruction with high geometrical fidelity. However, existing methods struggled under field conditions, especially with sparse and occluded views. This study developed a two-stage framework (DATR) for the reconstruction of apple trees from sparse views. The first stage leverages onboard sensors and foundation models to semi-automatically generate tree masks from complex field images. Tree masks are used to filter out background information in multi-modal data for the single-image-to-3D reconstruction at the second stage. This stage consists of a diffusion model and a large reconstruction model for respective multi view and implicit neural field generation. The training of the diffusion model and LRM was achieved by using realistic synthetic apple trees generated by a Real2Sim data generator. The framework was evaluated on both field and synthetic datasets. The field dataset includes six apple trees with field-measured ground truth, while the synthetic dataset featured structurally diverse trees. Evaluation results showed that our DATR framework outperformed existing 3D reconstruction methods across both datasets and achieved domain-trait estimation comparable to industrial-grade stationary laser scanners while improving the throughput by $\sim$360 times, demonstrating strong potential for scalable agricultural digital twin systems.

Ссылки и действия