CHARM3R: Towards Unseen Camera Height Robust Monocular 3D Detector
2508.11185v1
cs.CV, cs.LG
2025-08-19
Авторы:
Abhinav Kumar, Yuliang Guo, Zhihao Zhang, Xinyu Huang, Liu Ren, Xiaoming Liu
Резюме на русском
#### Контекст
Область исследования связана с монохромными 3D-детекторами, которые применяются для определения 3D-объектов с помощью систем на основе видеокамер. Эти модели очень эффективны при работе с данными от одного высоты камеры, но сталкиваются с трудностями при обработке данных с неизвестными высотами камеры. Эта проблема остается недостаточно исследована, что приводит к ограниченной универсальности моделей и недостаточной надежности в различных условиях. Мотивация заключается в развитии метода, который повысит универсальность моделей и позволит их устойчивость к неизвестной высоте камеры.
#### Метод
Методология основывается на подробном анализе влияния высоты камеры на современные модели 3D-детекторов. Используется расширенный датасет CARLA, где камера размещается на разных высотах. Для анализа используется математический подход и эмпирические эксперименты, раскрывающие роль регрессионных и земных моделей глубины в условиях неизвестных высот. Решение, предложенное в работе, заключается в создании модели CHARM3R (Camera Height Robust Monocular 3D Detector), которая основывается на среднем прогнозе для глубины, полученных от регрессионной и земной моделей. Эта техника уменьшает ошибки глубины и повышает универсальность модели.
#### Результаты
Эксперименты проводились на расширенном датасете CARLA с различными высотами камеры. Отмечено, что модель CHARM3R показала высокую универсальность, снижая ошибку глубины в среднем на 45% по сравнению с состоянием технологии (SoTA). Это достигается благодаря уникальной стратегии анализа глубины, которая учитывает оба типа моделей глубины. Результаты подтверждают, что CHARM3R значительно повышает надежность моделей монохромных 3D-детекторов при работе с неизвестными высотами камер.
#### Значимость
Результаты CHARM3R имеют практическое значение для различных областей, включая автоматическое управление транспортом, системы безопасности и робототехнику. Использование этой модели позволит улучшить универсальность и надежность моделей в сложных средах с разными высотами камеры. Основные преимущества включают увеличение общей точности, обеспечение лучшего понимания среды и повышение надежности модели при работе с нестандартными условиями.
#### Выводы
CHARM3R достигает существенных улучшений в универсальности моделей монохромных 3D-детекторов, обеспечивая оптимальную обработку данных с различных высот камер. Дальнейшие исследования будут сфокусированы на дальнейшем повышении точности, улучшении обработки редких сцен и расширении приложений этой модели в реальных условиях.
Abstract
Monocular 3D object detectors, while effective on data from one ego camera
height, struggle with unseen or out-of-distribution camera heights. Existing
methods often rely on Plucker embeddings, image transformations or data
augmentation. This paper takes a step towards this understudied problem by
first investigating the impact of camera height variations on state-of-the-art
(SoTA) Mono3D models. With a systematic analysis on the extended CARLA dataset
with multiple camera heights, we observe that depth estimation is a primary
factor influencing performance under height variations. We mathematically prove
and also empirically observe consistent negative and positive trends in mean
depth error of regressed and ground-based depth models, respectively, under
camera height changes. To mitigate this, we propose Camera Height Robust
Monocular 3D Detector (CHARM3R), which averages both depth estimates within the
model. CHARM3R improves generalization to unseen camera heights by more than
$45\%$, achieving SoTA performance on the CARLA dataset. Codes and Models at
https://github.com/abhi1kumar/CHARM3R
Ссылки и действия
Дополнительные ресурсы: