SQS: Enhancing Sparse Perception Models via Query-based Splatting in Autonomous Driving

2509.16588v1 cs.CV, cs.AI, cs.RO 2025-09-24
Авторы:

Haiming Zhang, Yiyao Zhu, Wending Zhou, Xu Yan, Yingjie Cai, Bingbing Liu, Shuguang Cui, Zhen Li

Резюме на русском

#### Контекст В последние годы наблюдается всестороннее развитие систем автоматизированного вождения, но одним из ключевых вызовов в этой области является эффективное использование перспективных моделей для перспективного видения (SPMs). Традиционные модели по умолчанию используют тяжелые слои и операции, что приводит к неэффективности в вычислениях и затруднению предсказания в реальном времени. Кроме того, возникают проблемы с памятью, особенно при обработке больших объемов данных. Чтобы улучшить эти модели, необходимо акцентировать внимание на создании новых методов, которые бы значительно сократили затраты ресурсов при сохранении высокой точности предсказаний. Одним из таких методов является инновационный подход, призванный расширить возможности SPMs, особенно в сфере автономного вождения. #### Метод Мы предлагаем SQS (Sparse Query-based Splatting), метод, который вводит новую методологию для предварительного обучения моделей с запросами. SQS основывается на технологии сплетения (splatting), которая позволяет проводить предварительное обучение с использованием запросов для построения тонкой контекстной структуры. Мы используем самостоятельное саперство (self-supervised learning) для реконструкции многовидовых изображений и глубинных карт, используя 3D-гауссовые представления, выводимые из запросов. Это способствует улучшению точности предсказаний и эффективности моделей. В ходе оптимизации мы интегрируем предварительно обученные запросы в существующие модели, чтобы достичь более сильной связи между предварительным и основным обучением. #### Результаты Мы проверили эффективность нашего подхода на основе нескольких бенчмарковых данных по автономному вождению. Мы обнаружили, что модели, обученные с помощью SQS, показали значительные улучшения в предсказании занятости (iIoU) и 3D-обнаружении (NDS) по сравнению с исходными SPMs. Мы сравнили наши результаты с другими технологиями предварительного обучения SPMs и получили выигрыш в маргине +1.3 mIoU в задаче предсказания занятости и +1.0 NDS в задаче 3D-обнаружения. Это показывает, что SQS может эффективно улучшить работу моделей в автономном вождении. #### Значимость Предложенный подход имеет широкий спектр приложений в различных областях, но особенно важен для систем автономного вождения. SQS позволяет повысить точность и эффективность моделей, что улучшает возможности систем для быстрого и точного обнаружения объектов вокруг автомобиля. Это может привести к более безопасным и эффективным системам автоматизированного управления. Мы также планируем расширить применение нашего метода на другие задачи, такие как

Abstract

Sparse Perception Models (SPMs) adopt a query-driven paradigm that forgoes explicit dense BEV or volumetric construction, enabling highly efficient computation and accelerated inference. In this paper, we introduce SQS, a novel query-based splatting pre-training specifically designed to advance SPMs in autonomous driving. SQS introduces a plug-in module that predicts 3D Gaussian representations from sparse queries during pre-training, leveraging self-supervised splatting to learn fine-grained contextual features through the reconstruction of multi-view images and depth maps. During fine-tuning, the pre-trained Gaussian queries are seamlessly integrated into downstream networks via query interaction mechanisms that explicitly connect pre-trained queries with task-specific queries, effectively accommodating the diverse requirements of occupancy prediction and 3D object detection. Extensive experiments on autonomous driving benchmarks demonstrate that SQS delivers considerable performance gains across multiple query-based 3D perception tasks, notably in occupancy prediction and 3D object detection, outperforming prior state-of-the-art pre-training approaches by a significant margin (i.e., +1.3 mIoU on occupancy prediction and +1.0 NDS on 3D detection).

Ссылки и действия