Extending Foundational Monocular Depth Estimators to Fisheye Cameras with Calibration Tokens

2508.04928v2 cs.CV, cs.AI, cs.LG 2025-08-11

Авторы:

Suchisrit Gangopadhyay, Jung-Hee Kim, Xien Chen, Patrick Rim, Hyoungseob Park, Alex Wong

Резюме на русском

## Контекст Монокулярные глубинные оценщики (Monocular Depth Estimators, FMDEs) — одна из ключевых технологий в области глубинной оценки, обладающих высокой точностью при использовании кадров в перспективной камеры. Однако, при переходе к камерам с фишей, эти методы чувствительны к ковариатному сдвигу, вызванному изменениями калибровочных параметров (на примере внутренних и дисторсионных параметров). Это приводит к неточным глубинным оценкам, что ограничивает применение FMDEs в сценариях, требующих использования фишевых камер. Наша работа направлена на обеспечение универсальности FMDEs для фишевых камер без необходимости их переучивания или оптимизации. ## Метод Мы предлагаем метод, основанный на использовании **Calibration Tokens** — легковесных механизмов, которые регулируют входные данные для FMDEs, чтобы достичь алигнмента между латентными пространствами фишевых и перспективных кадров. Эти токены позволяют избежать неполадок, связанных с перекалибровкой или проекцией на каноническую систему координат, что часто приводит к потерям или артефактам. Мы используем publicly available large-scale perspective image datasets для дообучения FMDEs на фишевых кадрах, пересчитав их угловые преобразования. Наш метод является self-supervised и не требует использования фишевых данных для обучения. ## Результаты Мы проверили нашу модель на различных FMDEs и многочисленных изображениях, включая внутренние и внешние сцены. Наши результаты показывают, что подход с Calibration Tokens позволяет достичь значительных улучшений в точности глубинных оценок по сравнению с состоянием искусства (state-of-the-art). Это достигается за счет того, что мы используем только один набор токенов для оба категорий — перспективных и фишевых кадров. Это универсален достигнутый благодаря обобщающему потенциалу нашего подхода. ## Значимость Наше решение открывает путь к обобщению FMDEs для использования с фишевыми камерами в различных приложениях, таких как VR, AR, и системы автоматизированного вождения. Несмотря на то, что метод не требует специальных фишевых данных, он позволяет достичь высокой точности и повторяемости. Это может существенно сократить затраты на проектирование и развертывание систем, которым требуется обработка изображений в фишевой камере. ## Выводы Мы представили метод расширения FMDEs для работы с фишевыми камерами с помощью Calibration Tokens. Этот метод эффективен, self-supervised и не требует переучивания модели. Мы показали, что он позволяет повысить точность глубинных оценок и обеспечивает широкое применение в различных сценариях. Будущие работы будут направлены на улучшение метода для поддержки более сложных сцен и типов камер. Наш код доступен по а

Abstract

We propose a method to extend foundational monocular depth estimators (FMDEs), trained on perspective images, to fisheye images. Despite being trained on tens of millions of images, FMDEs are susceptible to the covariate shift introduced by changes in camera calibration (intrinsic, distortion) parameters, leading to erroneous depth estimates. Our method aligns the distribution of latent embeddings encoding fisheye images to those of perspective images, enabling the reuse of FMDEs for fisheye cameras without retraining or finetuning. To this end, we introduce a set of Calibration Tokens as a light-weight adaptation mechanism that modulates the latent embeddings for alignment. By exploiting the already expressive latent space of FMDEs, we posit that modulating their embeddings avoids the negative impact of artifacts and loss introduced in conventional recalibration or map projection to a canonical reference frame in the image space. Our method is self-supervised and does not require fisheye images but leverages publicly available large-scale perspective image datasets. This is done by recalibrating perspective images to fisheye images, and enforcing consistency between their estimates during training. We evaluate our approach with several FMDEs, on both indoors and outdoors, where we consistently improve over state-of-the-art methods using a single set of tokens for both. Code available at: https://github.com/JungHeeKim29/calibration-token.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Extending Foundational Monocular Depth Estimators to Fisheye Cameras with Calibration Tokens

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

PyroFocus: A Deep Learning Approach to Real-Time Wildfire Detection in Multispec...

ProtoEFNet: Dynamic Prototype Learning for Inherently Interpretable Ejection Fra...

GalaxyDiT: Efficient Video Generation with Guidance Alignment and Adaptive Proxy...

Divide, then Ground: Adapting Frame Selection to Query Types for Long-Form Video...

PSA: Pyramid Sparse Attention for Efficient Video Understanding and Generation

Навигация