Zero-Shot Metric Depth Estimation via Monocular Visual-Inertial Rescaling for Autonomous Aerial Navigation

2509.08159v1 cs.RO, cs.AI 2025-09-12
Авторы:

Steven Yang, Xiaoyu Tian, Kshitij Goel, Wennie Tabib

Резюме на русском

#### Контекст Исследование автоматического воздушного полета становится все более важным в сфере робототехники, где целью является разработка систем, которые могут эффективно ориентироваться в пространстве, избегая столкновений. Одной из ключевых проблем является оценка метрической глубины из изображений, необходимая для точного планирования движения воздушных роботов. Несмотря на то, что существуют методы, использующие тяжелые сенсоры (например, ЛиДАРы или стероскопические камеры), они требуют больших вычислительных ресурсов и ограничены в размерах. Другие подходы, основанные на монокулярных камерах, часто требуют дорогостоящего и интенсивного данными тренировочного процесса. Это мотивирует разработку системы, которая была бы как можно более легковесной и точной в процессе оценки глубины для автономных дронов. #### Метод Предлагается подход, основанный на визуально-инерционной системе навигации, которая позволяет генерировать спарсе 3D-карту фичи с использованием относительных метрических глубин. Данные глубины рескалируются с помощью нескольких стратегий, включая монотонические сплайны, чтобы получить метрическую глубину. Архитектура системы включает несколько этапов: сбор данных с инерционного измерительного модуля и RGB-камеры, создание 3D-карты фич, рескалирование и вывод метрических глубин. Технические решения включают использование моделей обучения без учителя, которые позволяют избегать трудоемкого интерпретационного процесса, и монотонические сплайны, обеспечивающие точное преобразование относительных глубин в метрические. #### Результаты За основу исследования были взяты различные симуляционные и реальные среды, включая различные условия света и обстановки. Результаты показали, что стратегия, основанная на монотонических сплайнах, демонстрирует наивысшую точность. В реальном мире, на компьютерно-ограниченном квадроторе, система обеспечила оценку метрических глубин с частотой 15 Гц, что позволило выполнять успешный коллизионный избегание. Эксперименты продемонстрировали, что метод значительно упрощает вычислительные задачи и точно предсказывает метрические глубины для автономного полета. #### Значимость Разработанный подход может быть применен в различных областях, включая автоматический авиационный полет, доставку по городу, поиск и спасательные операции. Он имеет несколько преимуществ, таких как легковесность, независимость от больших данных и высокая точность. Этот подход может существенно снизить требования к ресурсам для о

Abstract

This paper presents a methodology to predict metric depth from monocular RGB images and an inertial measurement unit (IMU). To enable collision avoidance during autonomous flight, prior works either leverage heavy sensors (e.g., LiDARs or stereo cameras) or data-intensive and domain-specific fine-tuning of monocular metric depth estimation methods. In contrast, we propose several lightweight zero-shot rescaling strategies to obtain metric depth from relative depth estimates via the sparse 3D feature map created using a visual-inertial navigation system. These strategies are compared for their accuracy in diverse simulation environments. The best performing approach, which leverages monotonic spline fitting, is deployed in the real-world on a compute-constrained quadrotor. We obtain on-board metric depth estimates at 15 Hz and demonstrate successful collision avoidance after integrating the proposed method with a motion primitives-based planner.

Ссылки и действия