A new dataset and comparison for multi-camera frame synthesis
2508.09068v1
eess.IV, cs.CV
2025-08-14
Авторы:
Conall Daly, Anil Kokaram
Резюме на русском
## Контекст
Рамки интерполяции и видовых синтеза — это ключевые подходы к созданию новых кадров в изображениях серий. Они адресуют одну и ту же задачу: интерполяцию кадра с учетом окружающих его кадров во времени или пространстве. Интерполяция кадров обычно связана с временными сдвигами, в то время как видовый синтез чаще всего используется для оценки глубины в решениях типа 3D. Однако существующие наборы данных для интерполяции кадров сосредоточены на временных сдвигах, в то время как данные для видового синтеза сконцентрированы на 3D-глубине. Это не позволяет проводить адекватное сравнение этих подходов. Наша цель — разработать новый набор данных, который будет обеспечивать честное сравнение для этих подходов. Мы используем устройство сгорания камер, которое позволяет создать детальные многокамерные последовательности изображений.
## Метод
Мы разработали новый набор данных, используя настраиваемый линейный детальный камерный массив. Этот массив создает последовательности изображений с высокой точностью, которые могут использоваться для сравнения различных методов интерполяции и видового синтеза. Мы использовали этот массив для сравнения классических и глубоких алгоритмов интерполяции кадров с технологией 3D Gaussian Splatting для задачи видовой интерполяции.
## Результаты
Мы провели эксперимент, сравнивая классические и глубокие алгоритмы интерполяции кадров с технологией 3D Gaussian Splatting. На реальных данных глубокие алгоритмы не становятся значительно лучше классических, в то время как 3D Gaussian Splatting оказывается менее эффективным, показывая до 3.5 dB ниже PSNR в сравнении с фрейм-интерполяторами. Однако в синтетических сценах результаты обратны: 3D Gaussian Splatting показывает выигрыш возрастающий до 5 dB PSNR после 95%-го уровня доверия.
## Значимость
Наш набор данных и эксперименты позволяют честно сравнивать временную и пространственную работу интерполяции в разных задачах. Они также показывают, что, хотя глубокие алгоритмы имеют преимущество в виртуальных сценах, классические методы остаются эффективными в реальных сценах. Это делает нашу работу важной для развития инструментов для глубокого разбора интерполяции кадров.
## Выводы
Мы разработали новый многокамерный набор данных, который обеспечивает лучшую честность в сравнении методов интерполяции и видового синтеза. Мы обнаружили, что глубокие алгоритмы не всегда превосходят классические методы в реальных условиях, но имеют преимущество в синтетических сценах. Наша работа открывает путь для будущих исследований в области разработки б
Abstract
Many methods exist for frame synthesis in image sequences but can be broadly
categorised into frame interpolation and view synthesis techniques.
Fundamentally, both frame interpolation and view synthesis tackle the same
task, interpolating a frame given surrounding frames in time or space. However,
most frame interpolation datasets focus on temporal aspects with single cameras
moving through time and space, while view synthesis datasets are typically
biased toward stereoscopic depth estimation use cases. This makes direct
comparison between view synthesis and frame interpolation methods challenging.
In this paper, we develop a novel multi-camera dataset using a custom-built
dense linear camera array to enable fair comparison between these approaches.
We evaluate classical and deep learning frame interpolators against a view
synthesis method (3D Gaussian Splatting) for the task of view in-betweening.
Our results reveal that deep learning methods do not significantly outperform
classical methods on real image data, with 3D Gaussian Splatting actually
underperforming frame interpolators by as much as 3.5 dB PSNR. However, in
synthetic scenes, the situation reverses -- 3D Gaussian Splatting outperforms
frame interpolation algorithms by almost 5 dB PSNR at a 95% confidence level.
Ссылки и действия
Дополнительные ресурсы: