PTQAT: A Hybrid Parameter-Efficient Quantization Algorithm for 3D Perception Tasks

2508.10557v2 cs.CV, cs.AI 2025-08-18
Авторы:

Xinhao Wang, Zhiwei Lin, Zhongyu Xia, Yongtao Wang

Резюме на русском

## Контекст Пост-тренировочная квантизация (PTQ) и квантизация с подготовительным обучением (QAT) являются двумя основными подходами к квантизации моделей. PTQ, несмотря на свою простоту и эффективность, часто приводит к существенной потере качества в квантизированных моделях, особенно в задачах 3D-перцепшн. QAT, хотя и позволяет сохранить более высокое качество, требует оптимального выбора гиперпараметров и значительного увеличения нагрузки на GPU из-за тонкой настройки весов. На практике, обе эти технологии имеют ограничения, делая их менее привлекательными для эффективного развертывания 3D-сенсоров. Многие работы сосредоточены на достижении баланса между точностью и эффективностью, но не добиваются желаемых результатов в 3D-перцепшн, где качество важно для конкретных приложений, таких как автотранспорт. Наша мотивация заключается в разработке метода, который сочетает лучшие аспекты PTQ и QAT, обеспечивая эффективность и высокое качество для различных 3D-сетей. ## Метод Мы предлагаем PTQAT — новую гибридную алгоритм квантизации, который адаптивно выбирает критичные слои для QAT, оставляя остальные слои для PTQ. Особенностью нашего подхода является то, что мы ориентируемся не на слои с наибольшими расхождениями при квантизации, а на слои с менее заметными изменениями после квантизации. Мы предполагаем, что при таком подходе можно лучше компенсировать пропагацию ошибок квантизации. Это позволяет существенно уменьшить время обучения и требования к ресурсам GPU. Также мы доказали, что наш метод работает с различными типами моделей, включая CNNs и Transformers, и поддерживает различные бит-величины квантизации (например, 4 бита). Это делает PTQAT универсальным инструментом для удовлетворения различных задач 3D-перцепшн. ## Результаты Мы проверили наш алгоритм на наборе данных nuScenes, который включает в себя задачи объектного детектирования, сегментации и прогнозирования оккупантности. Наш алгоритм показал значительные улучшения по сравнению с QAT-только базой. Например, в задаче объектного детектирования, PTQAT повысил NDS ( nuScenes Detection Score) на 0.2%-0.9%, а в сегментации повысил mIoU (mean Intersection over Union) на 0.3%-2.0%. Эти результаты достигнуты за счет того, что мы квантизируем меньше слоев, а именно проводим QAT только для критичных слоев. Это позволяет эффективно использовать ресурсы и получить высокое качество модели. ## Значимость PTQAT может быть применен в различных приложениях, таких как автоматическое управление транспортом, видеонаблюдение и AR/VR. Он обеспечивает высокое качество модели, при этом эффективно используя ресурсы и уменьшая

Abstract

Post-Training Quantization (PTQ) and Quantization-Aware Training (QAT) represent two mainstream model quantization approaches. However, PTQ often leads to unacceptable performance degradation in quantized models, while QAT imposes substantial GPU memory requirements and extended training time due to weight fine-tuning. In this paper, we propose PTQAT, a novel general hybrid quantization algorithm for the efficient deployment of 3D perception networks. To address the speed accuracy trade-off between PTQ and QAT, our method selects critical layers for QAT fine-tuning and performs PTQ on the remaining layers. Contrary to intuition, fine-tuning the layers with smaller output discrepancies before and after quantization, rather than those with larger discrepancies, actually leads to greater improvements in the model's quantization accuracy. This means we better compensate for quantization errors during their propagation, rather than addressing them at the point where they occur. The proposed PTQAT achieves similar performance to QAT with more efficiency by freezing nearly 50% of quantifiable layers. Additionally, PTQAT is a universal quantization method that supports various quantization bit widths (4 bits) as well as different model architectures, including CNNs and Transformers. The experimental results on nuScenes across diverse 3D perception tasks, including object detection, semantic segmentation, and occupancy prediction, show that our method consistently outperforms QAT-only baselines. Notably, it achieves 0.2%-0.9% NDS and 0.3%-1.0% mAP gains in object detection, 0.3%-2.0% mIoU gains in semantic segmentation and occupancy prediction while fine-tuning fewer weights.

Ссылки и действия