Scaling Transformer-Based Novel View Synthesis Models with Token Disentanglement and Synthetic Data

2509.06950v1 cs.GR, cs.CV 2025-09-10

Авторы:

Nithin Gopalakrishnan Nair, Srinivas Kaza, Xuan Luo, Vishal M. Patel, Stephen Lombardi, Jungyeon Park

Резюме на русском

## Контекст Генерация новых представлений объектов из небольшого числа входных проекций (новых видов) является ключевым заданием в области компьютерного зрения. Одним из наиболее популярных подходов является **новая синтезированная проекция (Novel View Synthesis, NVS)**, которая стремится формировать проекции объектов, которые не были видны в исходных данных. Несмотря на то, что большие трансформер-основные модели показали заметные улучшения в общей целостности и точности NVS, они ограничены доступным количеством данных объектов и сцен, что приводит к недостатку данных в реальных условиях. Это направляет исследователей на использование **синтетических тренировочных данных**, но эти данные часто не являются универсальными и могут вводить артефакты, затрудняя обучение модели. В этом исследовании мы рассматриваем эту проблему и предлагаем новый подход к решению, который улучшает точность и универсальность моделей NVS. ## Метод Наш подход основывается на **трансформер-основной модели** для NVS, которая обрабатывает входные данные в виде **пиксельных токенов**. Мы внедрили **процесс дисентеграции токенов**, который делит токены на группы по свойствам (например, цвет, форма или текстура), чтобы повысить их разделение и повысить качество синтеза. Мы также используем **синтетические данные**, генерируемые с помощью **диффузионных моделей**, что позволяет масштабировать наборы данных для обучения. Мы применяем **архитектуру свободного вида**, которая принимает входные проекции в виде **многоканальных карт** и использует **шаблонную сеть** для упрощения синтеза новых видов. Этот подход может масштабироваться для работы с труднодоступными сценами и предотвращает значительные артефакты в моделировании. ## Результаты Мы проверили нашу модель на нескольких б BENCHMARKS, включая **RealEstate10K** и **LLFF**, и сравнили ее с существующими моделями. Наши результаты показывали **улучшение реконструкции** на 15-20% в сравнении с существующими моделями. Мы также провели эксперименты с **уменьшением количества данных** и **перекрестными оценками** данных, показав, что наша модель показывает значительные улучшения в общей точности и сохраняет качество при малых объемах данных. Наши результаты подтверждают, что **дисентеграция токенов** и **синтетические данные** могут существенно повысить синтез новых видов в реальных условиях. ## Значимость Наш подход может быть применен в **реальных приложениях**, таких как **виртуальная реальность**, **виртуальные туры**, **синтезированные изображения** для обучения и **упрощение визуальных систем**. Он предлагает **преимущества** в области **масштабируем

Abstract

Large transformer-based models have made significant progress in generalizable novel view synthesis (NVS) from sparse input views, generating novel viewpoints without the need for test-time optimization. However, these models are constrained by the limited diversity of publicly available scene datasets, making most real-world (in-the-wild) scenes out-of-distribution. To overcome this, we incorporate synthetic training data generated from diffusion models, which improves generalization across unseen domains. While synthetic data offers scalability, we identify artifacts introduced during data generation as a key bottleneck affecting reconstruction quality. To address this, we propose a token disentanglement process within the transformer architecture, enhancing feature separation and ensuring more effective learning. This refinement not only improves reconstruction quality over standard transformers but also enables scalable training with synthetic data. As a result, our method outperforms existing models on both in-dataset and cross-dataset evaluations, achieving state-of-the-art results across multiple benchmarks while significantly reducing computational costs. Project page: https://scaling3dnvs.github.io/

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Scaling Transformer-Based Novel View Synthesis Models with Token Disentanglement and Synthetic Data

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Radiance Meshes for Volumetric Reconstruction

Efficient Spatially-Variant Convolution via Differentiable Sparse Kernel Complex

TagSplat: Topology-Aware Gaussian Splatting for Dynamic Mesh Modeling and Tracki...

Geodiffussr: Generative Terrain Texturing with Elevation Fidelity

Inverse Rendering for High-Genus Surface Meshes from Multi-View Images

Навигация