G-CUT3R: Guided 3D Reconstruction with Camera and Depth Prior Integration
2508.11379v1
cs.CV, cs.AI
2025-08-19
Авторы:
Ramil Khafizov, Artem Komarichev, Ruslan Rakhimov, Peter Wonka, Evgeny Burnaev
Резюме на русском
## Контекст
Область трехмерной реконструкции широко применяется в сферах, таких как виртуальная и аugmented реальность, а также в архитектурной моделировании. Несмотря на развитие методов трехмерной реконструкции, существуют значительные проблемы, связанные с необходимостью использовать дополнительные ресурсы, такие как глубинные карты или калибровочная информация камеры, чтобы повысить точность и качество реконструкции. Существующие методы часто либо жестко привязаны к определенным типам входных данных, либо неэффективно используют доступные сведения. Это мотивирует разработку более гибких и эффективных подходов, которые могут использовать дополнительные данные для улучшения результатов.
## Метод
Метод G-CUT3R является модификацией CUT3R, добавляющей гибкость и эффективность за счет интеграции дополнительных модальностей входных данных. Метод включает несколько ключевых компонентов:
1. **Многомодальный кодировщик**: каждая модальность (RGB-изображение, глубинная карта, калибровочная информация) обрабатывается своим энкодером, позволяя эффективно извлекать признаки.
2. **Фуссинг признаков**: извлеченные признаки объединяются с использованием zero convolution, что позволяет избегать потерь из-за несовместимости модальностей.
3. **Лёгкая архитектура**: весь компонент может быть интегрирован во время выполнения без значительных изменений в основной архитектуре CUT3R, что делает G-CUT3R универсальным для различных сценариев применения.
## Результаты
G-CUT3R был опробован на нескольких выборках данных, включающих 3D-реконструкции и задачи нескольких видов видов. Эксперименты показали, что интеграция дополнительных модальностей приводит к существенному повышению точности и качества реконструкции. Например, при использовании глубинных карт и калибровочных данных камеры, реконструкция стала более точной и детальной. Эти результаты подтверждают эффективность G-CUT3R в использовании дополнительной информации для улучшения результатов.
## Значимость
G-CUT3R может быть применен в различных областях, включая виртуальную и аugmented реальность, архитектурное моделирование и промышленный дизайн. Его гибкость и эффективность делают его выгодным решением для сценариев, где доступны дополнительные модальности входных данных. Это позволяет повысить качество реконструкции и снизить потери из-за несоответствия модальностей. Будущие исследования будут ориентированы на улучшение многомодальной обработки и расширение применения G-CUT3R в различных сферах.
## Выводы
G-CUT3R представляет собой прорыв в области трехмерной реконстру
Abstract
We introduce G-CUT3R, a novel feed-forward approach for guided 3D scene
reconstruction that enhances the CUT3R model by integrating prior information.
Unlike existing feed-forward methods that rely solely on input images, our
method leverages auxiliary data, such as depth, camera calibrations, or camera
positions, commonly available in real-world scenarios. We propose a lightweight
modification to CUT3R, incorporating a dedicated encoder for each modality to
extract features, which are fused with RGB image tokens via zero convolution.
This flexible design enables seamless integration of any combination of prior
information during inference. Evaluated across multiple benchmarks, including
3D reconstruction and other multi-view tasks, our approach demonstrates
significant performance improvements, showing its ability to effectively
utilize available priors while maintaining compatibility with varying input
modalities.
Ссылки и действия
Дополнительные ресурсы: