SQS: Enhancing Sparse Perception Models via Query-based Splatting in Autonomous Driving
2509.16588v1
cs.CV, cs.AI, cs.RO
2025-09-24
Авторы:
Haiming Zhang, Yiyao Zhu, Wending Zhou, Xu Yan, Yingjie Cai, Bingbing Liu, Shuguang Cui, Zhen Li
Резюме на русском
#### Контекст
В последние годы наблюдается всестороннее развитие систем автоматизированного вождения, но одним из ключевых вызовов в этой области является эффективное использование перспективных моделей для перспективного видения (SPMs). Традиционные модели по умолчанию используют тяжелые слои и операции, что приводит к неэффективности в вычислениях и затруднению предсказания в реальном времени. Кроме того, возникают проблемы с памятью, особенно при обработке больших объемов данных. Чтобы улучшить эти модели, необходимо акцентировать внимание на создании новых методов, которые бы значительно сократили затраты ресурсов при сохранении высокой точности предсказаний. Одним из таких методов является инновационный подход, призванный расширить возможности SPMs, особенно в сфере автономного вождения.
#### Метод
Мы предлагаем SQS (Sparse Query-based Splatting), метод, который вводит новую методологию для предварительного обучения моделей с запросами. SQS основывается на технологии сплетения (splatting), которая позволяет проводить предварительное обучение с использованием запросов для построения тонкой контекстной структуры. Мы используем самостоятельное саперство (self-supervised learning) для реконструкции многовидовых изображений и глубинных карт, используя 3D-гауссовые представления, выводимые из запросов. Это способствует улучшению точности предсказаний и эффективности моделей. В ходе оптимизации мы интегрируем предварительно обученные запросы в существующие модели, чтобы достичь более сильной связи между предварительным и основным обучением.
#### Результаты
Мы проверили эффективность нашего подхода на основе нескольких бенчмарковых данных по автономному вождению. Мы обнаружили, что модели, обученные с помощью SQS, показали значительные улучшения в предсказании занятости (iIoU) и 3D-обнаружении (NDS) по сравнению с исходными SPMs. Мы сравнили наши результаты с другими технологиями предварительного обучения SPMs и получили выигрыш в маргине +1.3 mIoU в задаче предсказания занятости и +1.0 NDS в задаче 3D-обнаружения. Это показывает, что SQS может эффективно улучшить работу моделей в автономном вождении.
#### Значимость
Предложенный подход имеет широкий спектр приложений в различных областях, но особенно важен для систем автономного вождения. SQS позволяет повысить точность и эффективность моделей, что улучшает возможности систем для быстрого и точного обнаружения объектов вокруг автомобиля. Это может привести к более безопасным и эффективным системам автоматизированного управления. Мы также планируем расширить применение нашего метода на другие задачи, такие как
Abstract
Sparse Perception Models (SPMs) adopt a query-driven paradigm that forgoes
explicit dense BEV or volumetric construction, enabling highly efficient
computation and accelerated inference. In this paper, we introduce SQS, a novel
query-based splatting pre-training specifically designed to advance SPMs in
autonomous driving. SQS introduces a plug-in module that predicts 3D Gaussian
representations from sparse queries during pre-training, leveraging
self-supervised splatting to learn fine-grained contextual features through the
reconstruction of multi-view images and depth maps. During fine-tuning, the
pre-trained Gaussian queries are seamlessly integrated into downstream networks
via query interaction mechanisms that explicitly connect pre-trained queries
with task-specific queries, effectively accommodating the diverse requirements
of occupancy prediction and 3D object detection. Extensive experiments on
autonomous driving benchmarks demonstrate that SQS delivers considerable
performance gains across multiple query-based 3D perception tasks, notably in
occupancy prediction and 3D object detection, outperforming prior
state-of-the-art pre-training approaches by a significant margin (i.e., +1.3
mIoU on occupancy prediction and +1.0 NDS on 3D detection).
Ссылки и действия
Дополнительные ресурсы: