Can Less Precise Be More Reliable? A Systematic Evaluation of Quantization's Impact on CLIP Beyond Accuracy

2509.21173v1 cs.CV, cs.AI, cs.LG 2025-09-27

Авторы:

Aymen Bouguerra, Daniel Montoya, Alexandra Gomez-Villa, Fabio Arnez, Chokri Mraidha

Резюме на русском

## Контекст Видение-языковые модели (VLMs), такие как CLIP, стали революционным инструментом для решения задач в области обработки изображений и текста. Они обладают выдающимися возможностями zero-shot generalization и используются в решении задач безопасности, таких как детекция вне-дистрибуционных объектов (OOD). Однако, в данных моделях CLIP всё ещё существуют недостатки, связанные с эффективностью и надежностью при их реальном развёртывании. Одним из таких аспектов является влияние квантования (quantization) на производительность моделей. Несмотря на то, что квантование широко распространено в машинном обучении для уменьшения требований к ресурсам, его влияние на CLIP за пределами точности (accuracy) остается значительно недооцененным. Это делает необходимым подробное исследование и оценку того, как квантование влияет на надежность, калибровку и обобщающую способность CLIP. ## Метод Для того чтобы изучить влияние квантования на CLIP, авторы применяют тщательную оценку набора метрик, охватывающих качество распознавания, калибровку и OOD-детекцию. Использованные данные включают в себя обучающие и тестовые данные, используемые в оригинальной CLIP-модели, а также дополнительные вне-дистрибуционные данные для оценки OOD-способности. Методология исследования включает оценку классических метрик точности, но также включает рассмотрение показателей калибровки, таких как ECE (Expected Calibration Error), а также метрики OOD-точности. Архитектура оценки включает эксперименты с различными методами квантования, включая post-training quantization (PTQ) и quantization-aware training (QAT). ## Результаты Исследование показало, что квантование может привести к неожиданным результатам в зависимости от исходной тренировочной среды модели. Например, для моделей, которые в начале были менее точны (underconfident), квантование приводит к улучшению калибровки, но может негативно сказываться на точности. Несмотря на это, OOD-точность может улучшиться за счёт квантования. В то же время, для моделей, которые изначально были сильно уверенными в своих прогнозах (overconfident), квантование может привести к ухудшению калибровки. Однако, QAT-методы позволяют достичь баланса между этими двумя крайностями, повысив калибровку, точность и OOD-точность одновременно. Эти результаты вызывают удивление, поскольку доказывают, что квантование не только уменьшает требования к ресурсам, но и может улучшить целостную надежность модели. ## Значимость Полученные результаты имеют важное значение для применения VLMs в реальном мире, где необходимы модели, которые сочетают высокую эффективность, надежность и устойчивость к непредвиденным ситуациям. В

Abstract

The powerful zero-shot generalization capabilities of vision-language models (VLMs) like CLIP have enabled new paradigms for safety-related tasks such as out-of-distribution (OOD) detection. However, additional aspects crucial for the computationally efficient and reliable deployment of CLIP are still overlooked. In particular, the impact of quantization on CLIP's performance beyond accuracy remains underexplored. This work presents a large-scale evaluation of quantization on CLIP models, assessing not only in-distribution accuracy but a comprehensive suite of reliability metrics and revealing counterintuitive results driven by pre-training source. We demonstrate that quantization consistently improves calibration for typically underconfident pre-trained models, while often degrading it for overconfident variants. Intriguingly, this degradation in calibration does not preclude gains in other reliability metrics; we find that OOD detection can still improve for these same poorly calibrated models. Furthermore, we identify specific quantization-aware training (QAT) methods that yield simultaneous gains in zero-shot accuracy, calibration, and OOD robustness, challenging the view of a strict efficiency-performance trade-off. These findings offer critical insights for navigating the multi-objective problem of deploying efficient, reliable, and robust VLMs by utilizing quantization beyond its conventional role.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Can Less Precise Be More Reliable? A Systematic Evaluation of Quantization's Impact on CLIP Beyond Accuracy

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

PyroFocus: A Deep Learning Approach to Real-Time Wildfire Detection in Multispec...

ProtoEFNet: Dynamic Prototype Learning for Inherently Interpretable Ejection Fra...

GalaxyDiT: Efficient Video Generation with Guidance Alignment and Adaptive Proxy...

Divide, then Ground: Adapting Frame Selection to Query Types for Long-Form Video...

PSA: Pyramid Sparse Attention for Efficient Video Understanding and Generation

Навигация