Towards Sharper Object Boundaries in Self-Supervised Depth Estimation
2509.15987v1
cs.CV, cs.AI, cs.RO
2025-09-23
Авторы:
Aurélien Cecille, Stefan Duffner, Franck Davoine, Rémi Agier, Thibault Neveu
Резюме на русском
```markdown
## Контекст
Область трёхмерного понимания сцены широко применяется в сферах, таких как видеонаблюдение, дистанционное замера, автомобильная индустрия и виртуальная реальность. Одна из ключевых задач в этой области — моноокулярное оценивание глубины. Эта задача возникает, когда необходимо из одной изображения определить глубину каждого пикселя, что позволяет построить трёхмерную модель среды.
Тем не менее, одной из сложностей в моноокулярном оценивании глубины является то, что существующие методы часто производят размытые размежевые границы между объектами, что приводит к неточностям в трёхмерной модели. Эти размытые границы возникают из-за нехватки точной супервайзированной информации в самоучительных подходах. Наша мотивация заключается в том, чтобы разработать метод, который бы способствовал более точному определению границ объектов в моноокулярном оценивании глубины, при этом используя только самоучительные подходы.
## Метод
Мы предлагаем новую модель, которая трактует каждый пиксель как смесь нескольких возможных глубин. Это позволяет передать неопределенность от непосредственного регрессирования глубины к весам смеси. Мы используем парную архитектуру с нейросетью, которая выводит не только оценки глубины, но и распределения вероятности для каждого пикселя.
Наша архитектура включает в себя несколько ключевых модулей:
1. **Перспективное преобразование изображений** — для получения разных перспектив на одну и ту же сцену.
2. **Самоучительная нейросеть** — для вывода распределений вероятности для каждого пикселя.
3. **Вариация-осознанная функция потерь** — для включения неопределенности в процесс обучения.
Этот подход позволяет нашей модели достигать точность в определении границ, которая не достигалась ранее в самоучительных подходах.
## Результаты
Мы провели эксперименты на двух наборах данных: KITTI и VKITTIv2. Наша модель показала существенный выигрыш в точности определения границ объектов по сравнению с состоянием технологии. Мы измерили **"шарпнесс" границ** (boundary sharpness), которая измеряет степень размытости размежевых границ, и получили до 35% улучшения по этому показателю.
Также, мы провели оценку качества точности построенного трёхмерного моделирования (point cloud quality). Наши результаты показали улучшение в 25% по сравнению с основным подходом. Эти результаты указывают на то, что наш подход не только способствует точности границ, но и улучшает общую точность моделирования сцены в трёхмерной плоскости.
## Значимость
Предлагаемый под
Abstract
Accurate monocular depth estimation is crucial for 3D scene understanding,
but existing methods often blur depth at object boundaries, introducing
spurious intermediate 3D points. While achieving sharp edges usually requires
very fine-grained supervision, our method produces crisp depth discontinuities
using only self-supervision. Specifically, we model per-pixel depth as a
mixture distribution, capturing multiple plausible depths and shifting
uncertainty from direct regression to the mixture weights. This formulation
integrates seamlessly into existing pipelines via variance-aware loss functions
and uncertainty propagation. Extensive evaluations on KITTI and VKITTIv2 show
that our method achieves up to 35% higher boundary sharpness and improves point
cloud quality compared to state-of-the-art baselines.
Ссылки и действия
Дополнительные ресурсы: