PIS3R: Very Large Parallax Image Stitching via Deep 3D Reconstruction
2508.04236v1
cs.CV
2025-08-09
Авторы:
Muhua Zhu, Xinhao Jin, Chengbo Wang, Yongcong Zhang, Yifei Xue, Tie Ji, Yizhen Lao
Резюме на русском
**Резюме**
Статья предлагает решение для проблемы стайтинга изображений с значительным параллаксом, когда объекты в сцене имеют существенные различия в пространственном размещении между двумя изображениями. Традиционные методы стайтинга сталкиваются с трудностями при обработке таких сцен, что приводит к геометрическим искажениям и потере деталей. Авторы предлагают PIS3R — алгоритм, основанный на deep 3D reconstruction. Он применяет visual geometry grounded transformer для получения параметров камеры и 3D-реконструкции сцены. Затем используется проекция предсказанной точечной трехмерной модели на целевой вид, чтобы получить пиксельно-совместимое слияние. Для улучшения результатов применяется модуль diffusion, который устраняет гладкость и шум. PIS3R показал высокую точность и толерантность к сильному параллаксу в сравнении с существующими методами. Результаты могут быть использованы в суррогатной моделировании и других задачах AI, основанных на 3D-визуализации.
Abstract
Image stitching aim to align two images taken from different viewpoints into
one seamless, wider image. However, when the 3D scene contains depth variations
and the camera baseline is significant, noticeable parallax occurs-meaning the
relative positions of scene elements differ substantially between views. Most
existing stitching methods struggle to handle such images with large parallax
effectively. To address this challenge, in this paper, we propose an image
stitching solution called PIS3R that is robust to very large parallax based on
the novel concept of deep 3D reconstruction. First, we apply visual geometry
grounded transformer to two input images with very large parallax to obtain
both intrinsic and extrinsic parameters, as well as the dense 3D scene
reconstruction. Subsequently, we reproject reconstructed dense point cloud onto
a designated reference view using the recovered camera parameters, achieving
pixel-wise alignment and generating an initial stitched image. Finally, to
further address potential artifacts such as holes or noise in the initial
stitching, we propose a point-conditioned image diffusion module to obtain the
refined result.Compared with existing methods, our solution is very large
parallax tolerant and also provides results that fully preserve the geometric
integrity of all pixels in the 3D photogrammetric context, enabling direct
applicability to downstream 3D vision tasks such as SfM. Experimental results
demonstrate that the proposed algorithm provides accurate stitching results for
images with very large parallax, and outperforms the existing methods
qualitatively and quantitatively.
Ссылки и действия
Дополнительные ресурсы: