VIMD: Monocular Visual-Inertial Motion and Depth Estimation
2509.19713v1
cs.CV, cs.RO
2025-09-26
Авторы:
Saimouli Katragadda, Guoquan Huang
Резюме на русском
## Контекст
Развитие 3D-визуальных сенсоров позволяет создавать более точные и эффективные представления о трехмерной среде, необходимым для продвижения искусственного зрения в области робототехники и виртуальной, расширенной и увеличенной реальности (XR). Однако возникают сложности в достижении точности и эффективности при оценке глубины, что требует развития новых методов. Настоящая работа посвящена розработке модели, которая оптимально объединяет в себе подходы мониторинга мобильности и оценки глубины для получения результатов с высокой точностью.
## Метод
Модель VIMD (Monocular Visual-Inertial Motion and Depth Estimation) основывается на нейросетевой архитектуре, которая использует концепцию MSCKF (Multi-State Constraint Kalman Filter). Алгоритм построен на использовании многомерной информации из видеопотока и инерционных датчиков, чтобы рефинить перпексивную масштабированность кадров. Метод работает в восьми этапах: сбор видеоданных, обработка инерционных сенсоров, инициализация модели, оценка глубины, итеративное исправление масштаба, обновление модели и вычисление параметров. Эта модель может интегрироваться с различными нейросетевыми структурами для оценки глубины.
## Результаты
Использовались два тренировочных набора данных: TartanAir и VOID. Эксперименты показали, что VIMD достигает высокой точности и прочности даже при оценке глубины с очень малой плотностью точек (10-20 точек на кадр). Модель показала значительную улучшенную стабильность в автономных сценах и обнаружила способность нулевого шага для адаптации к новым условиям (AR Table dataset).
## Значимость
Разработанная модель VIMD может применяться в робототехнике, XR и виртуальной реальности для визуальной оценки глубины и позиционирования. Она обеспечивает более точную и ресурсосберегающую систему, которая может быть применена в реальном времени. Благодаря своей модульной структуре и высокой прочности, VIMD подходит для различных сценариев, включая сценарии с ресурсом-ограниченными устройствами.
## Выводы
Выводы подтверждают высокую эффективность VIMD в точной и стабильной оценке глубины, даже при минимальных данных. Это открывает путь для применения VIMD в реальном времени в сложных и многослойных средах. Будущие исследования будут сфокусированы на повышении модели путем интеграции дополнительных сенсоров и улучшении системы обучения.
Abstract
Accurate and efficient dense metric depth estimation is crucial for 3D visual
perception in robotics and XR. In this paper, we develop a monocular
visual-inertial motion and depth (VIMD) learning framework to estimate dense
metric depth by leveraging accurate and efficient MSCKF-based monocular
visual-inertial motion tracking. At the core the proposed VIMD is to exploit
multi-view information to iteratively refine per-pixel scale, instead of
globally fitting an invariant affine model as in the prior work. The VIMD
framework is highly modular, making it compatible with a variety of existing
depth estimation backbones. We conduct extensive evaluations on the TartanAir
and VOID datasets and demonstrate its zero-shot generalization capabilities on
the AR Table dataset. Our results show that VIMD achieves exceptional accuracy
and robustness, even with extremely sparse points as few as 10-20 metric depth
points per image. This makes the proposed VIMD a practical solution for
deployment in resource constrained settings, while its robust performance and
strong generalization capabilities offer significant potential across a wide
range of scenarios.
Ссылки и действия
Дополнительные ресурсы: