A new dataset and comparison for multi-camera frame synthesis

2508.09068v1 eess.IV, cs.CV 2025-08-14
Авторы:

Conall Daly, Anil Kokaram

Резюме на русском

## Контекст Рамки интерполяции и видовых синтеза — это ключевые подходы к созданию новых кадров в изображениях серий. Они адресуют одну и ту же задачу: интерполяцию кадра с учетом окружающих его кадров во времени или пространстве. Интерполяция кадров обычно связана с временными сдвигами, в то время как видовый синтез чаще всего используется для оценки глубины в решениях типа 3D. Однако существующие наборы данных для интерполяции кадров сосредоточены на временных сдвигах, в то время как данные для видового синтеза сконцентрированы на 3D-глубине. Это не позволяет проводить адекватное сравнение этих подходов. Наша цель — разработать новый набор данных, который будет обеспечивать честное сравнение для этих подходов. Мы используем устройство сгорания камер, которое позволяет создать детальные многокамерные последовательности изображений. ## Метод Мы разработали новый набор данных, используя настраиваемый линейный детальный камерный массив. Этот массив создает последовательности изображений с высокой точностью, которые могут использоваться для сравнения различных методов интерполяции и видового синтеза. Мы использовали этот массив для сравнения классических и глубоких алгоритмов интерполяции кадров с технологией 3D Gaussian Splatting для задачи видовой интерполяции. ## Результаты Мы провели эксперимент, сравнивая классические и глубокие алгоритмы интерполяции кадров с технологией 3D Gaussian Splatting. На реальных данных глубокие алгоритмы не становятся значительно лучше классических, в то время как 3D Gaussian Splatting оказывается менее эффективным, показывая до 3.5 dB ниже PSNR в сравнении с фрейм-интерполяторами. Однако в синтетических сценах результаты обратны: 3D Gaussian Splatting показывает выигрыш возрастающий до 5 dB PSNR после 95%-го уровня доверия. ## Значимость Наш набор данных и эксперименты позволяют честно сравнивать временную и пространственную работу интерполяции в разных задачах. Они также показывают, что, хотя глубокие алгоритмы имеют преимущество в виртуальных сценах, классические методы остаются эффективными в реальных сценах. Это делает нашу работу важной для развития инструментов для глубокого разбора интерполяции кадров. ## Выводы Мы разработали новый многокамерный набор данных, который обеспечивает лучшую честность в сравнении методов интерполяции и видового синтеза. Мы обнаружили, что глубокие алгоритмы не всегда превосходят классические методы в реальных условиях, но имеют преимущество в синтетических сценах. Наша работа открывает путь для будущих исследований в области разработки б

Abstract

Many methods exist for frame synthesis in image sequences but can be broadly categorised into frame interpolation and view synthesis techniques. Fundamentally, both frame interpolation and view synthesis tackle the same task, interpolating a frame given surrounding frames in time or space. However, most frame interpolation datasets focus on temporal aspects with single cameras moving through time and space, while view synthesis datasets are typically biased toward stereoscopic depth estimation use cases. This makes direct comparison between view synthesis and frame interpolation methods challenging. In this paper, we develop a novel multi-camera dataset using a custom-built dense linear camera array to enable fair comparison between these approaches. We evaluate classical and deep learning frame interpolators against a view synthesis method (3D Gaussian Splatting) for the task of view in-betweening. Our results reveal that deep learning methods do not significantly outperform classical methods on real image data, with 3D Gaussian Splatting actually underperforming frame interpolators by as much as 3.5 dB PSNR. However, in synthetic scenes, the situation reverses -- 3D Gaussian Splatting outperforms frame interpolation algorithms by almost 5 dB PSNR at a 95% confidence level.

Ссылки и действия