Towards Sharper Object Boundaries in Self-Supervised Depth Estimation

2509.15987v1 cs.CV, cs.AI, cs.RO 2025-09-23
Авторы:

Aurélien Cecille, Stefan Duffner, Franck Davoine, Rémi Agier, Thibault Neveu

Резюме на русском

```markdown ## Контекст Область трёхмерного понимания сцены широко применяется в сферах, таких как видеонаблюдение, дистанционное замера, автомобильная индустрия и виртуальная реальность. Одна из ключевых задач в этой области — моноокулярное оценивание глубины. Эта задача возникает, когда необходимо из одной изображения определить глубину каждого пикселя, что позволяет построить трёхмерную модель среды. Тем не менее, одной из сложностей в моноокулярном оценивании глубины является то, что существующие методы часто производят размытые размежевые границы между объектами, что приводит к неточностям в трёхмерной модели. Эти размытые границы возникают из-за нехватки точной супервайзированной информации в самоучительных подходах. Наша мотивация заключается в том, чтобы разработать метод, который бы способствовал более точному определению границ объектов в моноокулярном оценивании глубины, при этом используя только самоучительные подходы. ## Метод Мы предлагаем новую модель, которая трактует каждый пиксель как смесь нескольких возможных глубин. Это позволяет передать неопределенность от непосредственного регрессирования глубины к весам смеси. Мы используем парную архитектуру с нейросетью, которая выводит не только оценки глубины, но и распределения вероятности для каждого пикселя. Наша архитектура включает в себя несколько ключевых модулей: 1. **Перспективное преобразование изображений** — для получения разных перспектив на одну и ту же сцену. 2. **Самоучительная нейросеть** — для вывода распределений вероятности для каждого пикселя. 3. **Вариация-осознанная функция потерь** — для включения неопределенности в процесс обучения. Этот подход позволяет нашей модели достигать точность в определении границ, которая не достигалась ранее в самоучительных подходах. ## Результаты Мы провели эксперименты на двух наборах данных: KITTI и VKITTIv2. Наша модель показала существенный выигрыш в точности определения границ объектов по сравнению с состоянием технологии. Мы измерили **"шарпнесс" границ** (boundary sharpness), которая измеряет степень размытости размежевых границ, и получили до 35% улучшения по этому показателю. Также, мы провели оценку качества точности построенного трёхмерного моделирования (point cloud quality). Наши результаты показали улучшение в 25% по сравнению с основным подходом. Эти результаты указывают на то, что наш подход не только способствует точности границ, но и улучшает общую точность моделирования сцены в трёхмерной плоскости. ## Значимость Предлагаемый под

Abstract

Accurate monocular depth estimation is crucial for 3D scene understanding, but existing methods often blur depth at object boundaries, introducing spurious intermediate 3D points. While achieving sharp edges usually requires very fine-grained supervision, our method produces crisp depth discontinuities using only self-supervision. Specifically, we model per-pixel depth as a mixture distribution, capturing multiple plausible depths and shifting uncertainty from direct regression to the mixture weights. This formulation integrates seamlessly into existing pipelines via variance-aware loss functions and uncertainty propagation. Extensive evaluations on KITTI and VKITTIv2 show that our method achieves up to 35% higher boundary sharpness and improves point cloud quality compared to state-of-the-art baselines.

Ссылки и действия