G-CUT3R: Guided 3D Reconstruction with Camera and Depth Prior Integration

2508.11379v1 cs.CV, cs.AI 2025-08-19

Авторы:

Ramil Khafizov, Artem Komarichev, Ruslan Rakhimov, Peter Wonka, Evgeny Burnaev

Резюме на русском

## Контекст Область трехмерной реконструкции широко применяется в сферах, таких как виртуальная и аugmented реальность, а также в архитектурной моделировании. Несмотря на развитие методов трехмерной реконструкции, существуют значительные проблемы, связанные с необходимостью использовать дополнительные ресурсы, такие как глубинные карты или калибровочная информация камеры, чтобы повысить точность и качество реконструкции. Существующие методы часто либо жестко привязаны к определенным типам входных данных, либо неэффективно используют доступные сведения. Это мотивирует разработку более гибких и эффективных подходов, которые могут использовать дополнительные данные для улучшения результатов. ## Метод Метод G-CUT3R является модификацией CUT3R, добавляющей гибкость и эффективность за счет интеграции дополнительных модальностей входных данных. Метод включает несколько ключевых компонентов: 1. **Многомодальный кодировщик**: каждая модальность (RGB-изображение, глубинная карта, калибровочная информация) обрабатывается своим энкодером, позволяя эффективно извлекать признаки. 2. **Фуссинг признаков**: извлеченные признаки объединяются с использованием zero convolution, что позволяет избегать потерь из-за несовместимости модальностей. 3. **Лёгкая архитектура**: весь компонент может быть интегрирован во время выполнения без значительных изменений в основной архитектуре CUT3R, что делает G-CUT3R универсальным для различных сценариев применения. ## Результаты G-CUT3R был опробован на нескольких выборках данных, включающих 3D-реконструкции и задачи нескольких видов видов. Эксперименты показали, что интеграция дополнительных модальностей приводит к существенному повышению точности и качества реконструкции. Например, при использовании глубинных карт и калибровочных данных камеры, реконструкция стала более точной и детальной. Эти результаты подтверждают эффективность G-CUT3R в использовании дополнительной информации для улучшения результатов. ## Значимость G-CUT3R может быть применен в различных областях, включая виртуальную и аugmented реальность, архитектурное моделирование и промышленный дизайн. Его гибкость и эффективность делают его выгодным решением для сценариев, где доступны дополнительные модальности входных данных. Это позволяет повысить качество реконструкции и снизить потери из-за несоответствия модальностей. Будущие исследования будут ориентированы на улучшение многомодальной обработки и расширение применения G-CUT3R в различных сферах. ## Выводы G-CUT3R представляет собой прорыв в области трехмерной реконстру

Abstract

We introduce G-CUT3R, a novel feed-forward approach for guided 3D scene reconstruction that enhances the CUT3R model by integrating prior information. Unlike existing feed-forward methods that rely solely on input images, our method leverages auxiliary data, such as depth, camera calibrations, or camera positions, commonly available in real-world scenarios. We propose a lightweight modification to CUT3R, incorporating a dedicated encoder for each modality to extract features, which are fused with RGB image tokens via zero convolution. This flexible design enables seamless integration of any combination of prior information during inference. Evaluated across multiple benchmarks, including 3D reconstruction and other multi-view tasks, our approach demonstrates significant performance improvements, showing its ability to effectively utilize available priors while maintaining compatibility with varying input modalities.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

G-CUT3R: Guided 3D Reconstruction with Camera and Depth Prior Integration

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Dual-Stream Spectral Decoupling Distillation for Remote Sensing Object Detection

Explainable Parkinsons Disease Gait Recognition Using Multimodal RGB-D Fusion an...

GuidNoise: Single-Pair Guided Diffusion for Generalized Noise Synthesis

PhyVLLM: Physics-Guided Video Language Model with Motion-Appearance Disentanglem...

Detection of Intoxicated Individuals from Facial Video Sequences via a Recurrent...

Навигация