DepthVision: Robust Vision-Language Understanding through GAN-Based LiDAR-to-RGB Synthesis

2509.07463v1 cs.RO, cs.AI, cs.CV 2025-09-11
Авторы:

Sven Kirchner, Nils Purschke, Ross Greer, Alois C. Knoll

Резюме на русском

## Контекст Надежность роботских операций в условиях недостаточного или поврежденного визуального ввода остается значительной проблемой в области робототехники. Традиционные Vision-Language Models (VLMs) опираются только на визуальные данные, полученные камерой, и текстовые сведения. Однако значительное количество сенсорных данных, таких как LiDAR, часто игнорируется или недостаточно используется в таких моделях. Это сделано по причине того, что VLMs не способны обрабатывать неполные или разреженные данные, такие как LiDAR-сканы, непосредственно. Наличие сильных изменений в условиях освещения или размытости изображений дополнительно усложняет работу роботов в реальных условиях. Мы предлагаем DepthVision — рамформу, которая адресует эти проблемы, обеспечивая улучшенное зрение робота в таких условиях. ## Метод DepthVision является новым фреймворком для мультимодального понимания сцены, который использует синтез RGB-изображений из LiDAR-сканов с помощью генерирующей адверсарной сети (GAN) с интегрированным сетью рефайнера. Эти сгенерированные RGB-изображения сочетаются с реальными RGB-данными с помощью Luminance-Aware Modality Adaptation (LAMA), которая адаптирует динамически сочетание двух типов данных к освещению окружения. Эта архитектура позволяет компенсировать заметные сбои в сенсорах, такие как темнота или мерцание света, без необходимости переучивания визуальных моделей. Целью является предоставить более надежный ввод визуальных моделей, даже при неполной или искаженной информации. ## Результаты Мы проверили DepthVision на реальных и симулированных данных, включая несколько моделей и задач. Особое внимание было уделено безопасным задачам, таким как предотвращение столкновений и детектирование объектов в низкой освещённости. Результаты показали, что наше решение значительно улучшает работу моделей в условиях слабого освещения, повышая точность и уменьшая ошибки по сравнению с RGB-только базовыми моделями. Была доказана совместимость DepthVision с замороженными Vision-Language Models, что демонстрирует гибкость и эффективность нашего подхода. ## Значимость DepthVision может быть применен в большинстве сценариев, где визуальная информация ограничена или искажена, включая системы безопасности в автомобилях, навигационные системы для роботов и видеосенсоры для беспилотных летательных аппаратов. Наш подход обеспечивает улучшенную надёжность и безопасность в реальных условиях, а также может быть использован для обогащения данных во время обучения VLMs, что повысит их качество и доступность для более широкого круга задач. ## Выводы DepthVision является прорывом в области мультимодального понимания сцены, используя Li

Abstract

Ensuring reliable robot operation when visual input is degraded or insufficient remains a central challenge in robotics. This letter introduces DepthVision, a framework for multimodal scene understanding designed to address this problem. Unlike existing Vision-Language Models (VLMs), which use only camera-based visual input alongside language, DepthVision synthesizes RGB images from sparse LiDAR point clouds using a conditional generative adversarial network (GAN) with an integrated refiner network. These synthetic views are then combined with real RGB data using a Luminance-Aware Modality Adaptation (LAMA), which blends the two types of data dynamically based on ambient lighting conditions. This approach compensates for sensor degradation, such as darkness or motion blur, without requiring any fine-tuning of downstream vision-language models. We evaluate DepthVision on real and simulated datasets across various models and tasks, with particular attention to safety-critical tasks. The results demonstrate that our approach improves performance in low-light conditions, achieving substantial gains over RGB-only baselines while preserving compatibility with frozen VLMs. This work highlights the potential of LiDAR-guided RGB synthesis for achieving robust robot operation in real-world environments.

Ссылки и действия