Can Less Precise Be More Reliable? A Systematic Evaluation of Quantization's Impact on CLIP Beyond Accuracy

2509.21173v2 cs.CV, cs.AI, cs.LG 2025-09-30

Авторы:

Aymen Bouguerra, Daniel Montoya, Alexandra Gomez-Villa, Fabio Arnez, Chokri Mraidha

Резюме на русском

## Контекст Видение-языковые модели (VLMs), такие как CLIP, обладают впечатляющими способностями к нулевой-выстреловой общепринципности и применяются в решении задач, включая определение выхода за пределы распределения (OOD). Однако, несмотря на их высокую точность, вопросы касательно вычислительной эффективности и надежности этих моделей остаются открытыми. Квантование (quantization), являющееся одним из методов оптимизации модели, сокращает размер модели и ускоряет её вычисления, но его влияние на производительность CLIP, не только в точности, но и в других аспектах надежности, остается нередко недостаточно исследовано. Это исследование подробно изучает эффекты квантования на CLIP, используя различные метрики, включая калибровку и определение выхода за пределы распределения (OOD). Важность исследования заключается в том, что оно было направлено на то, чтобы понять, можно ли оптимизировать VLMs, используя квантование, не только для улучшения точности, но и для обеспечения надежности и качества работы в "реальном мире". ## Метод Исследование основывается на методологии квантования (quantization), включая варианты типа Post-Training Quantization (PTQ) и Quantization-Aware Training (QAT). Авторы применяют QAT для оптимизации CLIP, контролируя изменения в модели после этой оптимизации. В ходе исследования была проанализирована не только точность (accuracy) CLIP по внутренним данным (in-distribution data), но также несколько дополнительных метрик, таких как калибровка (calibration) и определение "выхода за пределы распределения" (OOD detection). Авторы также проверили, как эти метрики влияют на разные версии CLIP, подготовленные к работе с разными источниками предварительного обучения (pre-training datasets). Методология также включала сравнение разных квантово-сознательных тренировочных методов (quantization-aware training), чтобы определить, какие из них дают наибольшую выгоду в трех областях: точности, калибровке и OOD-надежности. ## Результаты Результаты показали, что квантование, в основном, приводит к значительному улучшению калибровки (calibration) для моделей, которые изначально были "недоуверенными" (underconfident) в своих предсказаниях. Таким образом, эти модели становятся более надежными в определении "слишком высокой" или "слишком низкой" уверенности в своих ответах. Однако, для моделей, которые изначально "переуверенны" (overconfident), квантование может привести к ухудшению калибровки. Несмотря на это, даже для таких моделей, квантование положительно влияло на другие метрики надежности, такие как OOD-детекция. В результате обнаружено, что применение конкретных методов квантования-сознательного обучения (Quantization-Aware Training) позволяет получить выгоду во всех трех областях: точности, калибровки и OOD-надежности одновременно, что

Abstract

The powerful zero-shot generalization capabilities of vision-language models (VLMs) like CLIP have enabled new paradigms for safety-related tasks such as out-of-distribution (OOD) detection. However, additional aspects crucial for the computationally efficient and reliable deployment of CLIP are still overlooked. In particular, the impact of quantization on CLIP's performance beyond accuracy remains underexplored. This work presents a large-scale evaluation of quantization on CLIP models, assessing not only in-distribution accuracy but a comprehensive suite of reliability metrics and revealing counterintuitive results driven by pre-training source. We demonstrate that quantization consistently improves calibration for typically underconfident pre-trained models, while often degrading it for overconfident variants. Intriguingly, this degradation in calibration does not preclude gains in other reliability metrics; we find that OOD detection can still improve for these same poorly calibrated models. Furthermore, we identify specific quantization-aware training (QAT) methods that yield simultaneous gains in zero-shot accuracy, calibration, and OOD robustness, challenging the view of a strict efficiency-performance trade-off. These findings offer critical insights for navigating the multi-objective problem of deploying efficient, reliable, and robust VLMs by utilizing quantization beyond its conventional role.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Can Less Precise Be More Reliable? A Systematic Evaluation of Quantization's Impact on CLIP Beyond Accuracy

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

PyroFocus: A Deep Learning Approach to Real-Time Wildfire Detection in Multispec...

ProtoEFNet: Dynamic Prototype Learning for Inherently Interpretable Ejection Fra...

GalaxyDiT: Efficient Video Generation with Guidance Alignment and Adaptive Proxy...

Divide, then Ground: Adapting Frame Selection to Query Types for Long-Form Video...

PSA: Pyramid Sparse Attention for Efficient Video Understanding and Generation

Навигация