DATR: Diffusion-based 3D Apple Tree Reconstruction Framework with Sparse-View
2508.19508v1
cs.RO, cs.CV
2025-08-29
Авторы:
Tian Qiu, Alan Zoubi, Yiyuan Lin, Ruiming Du, Lailiang Cheng, Yu Jiang
Резюме на русском
#### Контекст
Цифровые копии в реальном времени (digital twin) предлагают перспективы трансформации для мониторинга в реальном времени и симуляции роботов, используя точные виртуальные двойники физических объектов. Основой этих систем является 3D-реконструкция с высокой геометрической точностью. Однако существующие методики сталкиваются с трудностями при работе под полярными условиями, особенно при наличии скудных и затененных обзоров. Данное исследование разрабатывает рамформу DATR (Diffusion-based 3D Apple Tree Reconstruction) для 3D-реконструкции деревьев яблони из скудных обзоров. Фреймворк работает в двух стадиях: первая стадия применяет бортовые сенсоры и базовые модели для получения масок деревьев, которые исключают фоновую информацию. Вторая стадия включает в себя диффузионную модель и модель общего реконструктора для генерирования трехмерных моделей и нейронных полей. Эта рамформа была протестирована как на реальных, так и на синтетических данных.
#### Метод
DATR состоит из двух стадий. В первой стадии используется комбинация бортовых сенсоров и базовых моделей для получения масок деревьев в сложных полярных условиях. Эти маски используются для отфильтрования фоновых данных в многомодальных изображениях. Во второй стадии применяются диффузионная модель для построения трехмерных моделей и модель общего реконструктора для генерирования нейронных полей. Обучение диффузионной модели и модели общего реконструктора проводилось на синтетических данных, сгенерированных Real2Sim. Набор реальных данных включал шесть деревьев с измеренными территориальными значениями, а синтетический набор представлял собой структурно разнообразные деревья.
#### Результаты
DATR показал высокую точность реконструкции в сравнении с существующими методами на двух наборах данных. Он предоставил трехмерные модели деревьев с уровнем детализации, приближающимся к результатам промышленных лазерных сканеров, но с значительно нижей стоимостью и более высокой скоростью. Для оценки характеристик деревьев (например, ширины и высоты), DATR достиг результатов, приближающихся к промышленным сканерам, с повышенной производительностью примерно в 360 раз.
#### Значимость
DATR может применяться в сельскохозяйственных системах для получения цифровых двойников для мониторинга, оценки здоровья растений и оптимизации управления фермы. Он предлагает преимущества в скорости, стоимости и удобстве в использовании по сравнению с традиционными лазерными сканерами. Этот подход может также иметь значимые приложения в других областях, таких как транспорт, жилищное строитель
Abstract
Digital twin applications offered transformative potential by enabling
real-time monitoring and robotic simulation through accurate virtual replicas
of physical assets. The key to these systems is 3D reconstruction with high
geometrical fidelity. However, existing methods struggled under field
conditions, especially with sparse and occluded views. This study developed a
two-stage framework (DATR) for the reconstruction of apple trees from sparse
views. The first stage leverages onboard sensors and foundation models to
semi-automatically generate tree masks from complex field images. Tree masks
are used to filter out background information in multi-modal data for the
single-image-to-3D reconstruction at the second stage. This stage consists of a
diffusion model and a large reconstruction model for respective multi view and
implicit neural field generation. The training of the diffusion model and LRM
was achieved by using realistic synthetic apple trees generated by a Real2Sim
data generator. The framework was evaluated on both field and synthetic
datasets. The field dataset includes six apple trees with field-measured ground
truth, while the synthetic dataset featured structurally diverse trees.
Evaluation results showed that our DATR framework outperformed existing 3D
reconstruction methods across both datasets and achieved domain-trait
estimation comparable to industrial-grade stationary laser scanners while
improving the throughput by $\sim$360 times, demonstrating strong potential for
scalable agricultural digital twin systems.
Ссылки и действия
Дополнительные ресурсы: