VIMD: Monocular Visual-Inertial Motion and Depth Estimation

2509.19713v1 cs.CV, cs.RO 2025-09-26
Авторы:

Saimouli Katragadda, Guoquan Huang

Резюме на русском

## Контекст Развитие 3D-визуальных сенсоров позволяет создавать более точные и эффективные представления о трехмерной среде, необходимым для продвижения искусственного зрения в области робототехники и виртуальной, расширенной и увеличенной реальности (XR). Однако возникают сложности в достижении точности и эффективности при оценке глубины, что требует развития новых методов. Настоящая работа посвящена розработке модели, которая оптимально объединяет в себе подходы мониторинга мобильности и оценки глубины для получения результатов с высокой точностью. ## Метод Модель VIMD (Monocular Visual-Inertial Motion and Depth Estimation) основывается на нейросетевой архитектуре, которая использует концепцию MSCKF (Multi-State Constraint Kalman Filter). Алгоритм построен на использовании многомерной информации из видеопотока и инерционных датчиков, чтобы рефинить перпексивную масштабированность кадров. Метод работает в восьми этапах: сбор видеоданных, обработка инерционных сенсоров, инициализация модели, оценка глубины, итеративное исправление масштаба, обновление модели и вычисление параметров. Эта модель может интегрироваться с различными нейросетевыми структурами для оценки глубины. ## Результаты Использовались два тренировочных набора данных: TartanAir и VOID. Эксперименты показали, что VIMD достигает высокой точности и прочности даже при оценке глубины с очень малой плотностью точек (10-20 точек на кадр). Модель показала значительную улучшенную стабильность в автономных сценах и обнаружила способность нулевого шага для адаптации к новым условиям (AR Table dataset). ## Значимость Разработанная модель VIMD может применяться в робототехнике, XR и виртуальной реальности для визуальной оценки глубины и позиционирования. Она обеспечивает более точную и ресурсосберегающую систему, которая может быть применена в реальном времени. Благодаря своей модульной структуре и высокой прочности, VIMD подходит для различных сценариев, включая сценарии с ресурсом-ограниченными устройствами. ## Выводы Выводы подтверждают высокую эффективность VIMD в точной и стабильной оценке глубины, даже при минимальных данных. Это открывает путь для применения VIMD в реальном времени в сложных и многослойных средах. Будущие исследования будут сфокусированы на повышении модели путем интеграции дополнительных сенсоров и улучшении системы обучения.

Abstract

Accurate and efficient dense metric depth estimation is crucial for 3D visual perception in robotics and XR. In this paper, we develop a monocular visual-inertial motion and depth (VIMD) learning framework to estimate dense metric depth by leveraging accurate and efficient MSCKF-based monocular visual-inertial motion tracking. At the core the proposed VIMD is to exploit multi-view information to iteratively refine per-pixel scale, instead of globally fitting an invariant affine model as in the prior work. The VIMD framework is highly modular, making it compatible with a variety of existing depth estimation backbones. We conduct extensive evaluations on the TartanAir and VOID datasets and demonstrate its zero-shot generalization capabilities on the AR Table dataset. Our results show that VIMD achieves exceptional accuracy and robustness, even with extremely sparse points as few as 10-20 metric depth points per image. This makes the proposed VIMD a practical solution for deployment in resource constrained settings, while its robust performance and strong generalization capabilities offer significant potential across a wide range of scenarios.

Ссылки и действия