DepthVision: Robust Vision-Language Understanding through GAN-Based LiDAR-to-RGB Synthesis
2509.07463v1
cs.RO, cs.AI, cs.CV
2025-09-11
Авторы:
Sven Kirchner, Nils Purschke, Ross Greer, Alois C. Knoll
Резюме на русском
## Контекст
Надежность роботских операций в условиях недостаточного или поврежденного визуального ввода остается значительной проблемой в области робототехники. Традиционные Vision-Language Models (VLMs) опираются только на визуальные данные, полученные камерой, и текстовые сведения. Однако значительное количество сенсорных данных, таких как LiDAR, часто игнорируется или недостаточно используется в таких моделях. Это сделано по причине того, что VLMs не способны обрабатывать неполные или разреженные данные, такие как LiDAR-сканы, непосредственно. Наличие сильных изменений в условиях освещения или размытости изображений дополнительно усложняет работу роботов в реальных условиях. Мы предлагаем DepthVision — рамформу, которая адресует эти проблемы, обеспечивая улучшенное зрение робота в таких условиях.
## Метод
DepthVision является новым фреймворком для мультимодального понимания сцены, который использует синтез RGB-изображений из LiDAR-сканов с помощью генерирующей адверсарной сети (GAN) с интегрированным сетью рефайнера. Эти сгенерированные RGB-изображения сочетаются с реальными RGB-данными с помощью Luminance-Aware Modality Adaptation (LAMA), которая адаптирует динамически сочетание двух типов данных к освещению окружения. Эта архитектура позволяет компенсировать заметные сбои в сенсорах, такие как темнота или мерцание света, без необходимости переучивания визуальных моделей. Целью является предоставить более надежный ввод визуальных моделей, даже при неполной или искаженной информации.
## Результаты
Мы проверили DepthVision на реальных и симулированных данных, включая несколько моделей и задач. Особое внимание было уделено безопасным задачам, таким как предотвращение столкновений и детектирование объектов в низкой освещённости. Результаты показали, что наше решение значительно улучшает работу моделей в условиях слабого освещения, повышая точность и уменьшая ошибки по сравнению с RGB-только базовыми моделями. Была доказана совместимость DepthVision с замороженными Vision-Language Models, что демонстрирует гибкость и эффективность нашего подхода.
## Значимость
DepthVision может быть применен в большинстве сценариев, где визуальная информация ограничена или искажена, включая системы безопасности в автомобилях, навигационные системы для роботов и видеосенсоры для беспилотных летательных аппаратов. Наш подход обеспечивает улучшенную надёжность и безопасность в реальных условиях, а также может быть использован для обогащения данных во время обучения VLMs, что повысит их качество и доступность для более широкого круга задач.
## Выводы
DepthVision является прорывом в области мультимодального понимания сцены, используя Li
Abstract
Ensuring reliable robot operation when visual input is degraded or
insufficient remains a central challenge in robotics. This letter introduces
DepthVision, a framework for multimodal scene understanding designed to address
this problem. Unlike existing Vision-Language Models (VLMs), which use only
camera-based visual input alongside language, DepthVision synthesizes RGB
images from sparse LiDAR point clouds using a conditional generative
adversarial network (GAN) with an integrated refiner network. These synthetic
views are then combined with real RGB data using a Luminance-Aware Modality
Adaptation (LAMA), which blends the two types of data dynamically based on
ambient lighting conditions. This approach compensates for sensor degradation,
such as darkness or motion blur, without requiring any fine-tuning of
downstream vision-language models. We evaluate DepthVision on real and
simulated datasets across various models and tasks, with particular attention
to safety-critical tasks. The results demonstrate that our approach improves
performance in low-light conditions, achieving substantial gains over RGB-only
baselines while preserving compatibility with frozen VLMs. This work highlights
the potential of LiDAR-guided RGB synthesis for achieving robust robot
operation in real-world environments.
Ссылки и действия
Дополнительные ресурсы: