Can Less Precise Be More Reliable? A Systematic Evaluation of Quantization's Impact on CLIP Beyond Accuracy
2509.21173v2
cs.CV, cs.AI, cs.LG
2025-09-30
Авторы:
Aymen Bouguerra, Daniel Montoya, Alexandra Gomez-Villa, Fabio Arnez, Chokri Mraidha
Резюме на русском
## Контекст
Видение-языковые модели (VLMs), такие как CLIP, обладают впечатляющими способностями к нулевой-выстреловой общепринципности и применяются в решении задач, включая определение выхода за пределы распределения (OOD). Однако, несмотря на их высокую точность, вопросы касательно вычислительной эффективности и надежности этих моделей остаются открытыми.
Квантование (quantization), являющееся одним из методов оптимизации модели, сокращает размер модели и ускоряет её вычисления, но его влияние на производительность CLIP, не только в точности, но и в других аспектах надежности, остается нередко недостаточно исследовано. Это исследование подробно изучает эффекты квантования на CLIP, используя различные метрики, включая калибровку и определение выхода за пределы распределения (OOD).
Важность исследования заключается в том, что оно было направлено на то, чтобы понять, можно ли оптимизировать VLMs, используя квантование, не только для улучшения точности, но и для обеспечения надежности и качества работы в "реальном мире".
## Метод
Исследование основывается на методологии квантования (quantization), включая варианты типа Post-Training Quantization (PTQ) и Quantization-Aware Training (QAT). Авторы применяют QAT для оптимизации CLIP, контролируя изменения в модели после этой оптимизации.
В ходе исследования была проанализирована не только точность (accuracy) CLIP по внутренним данным (in-distribution data), но также несколько дополнительных метрик, таких как калибровка (calibration) и определение "выхода за пределы распределения" (OOD detection). Авторы также проверили, как эти метрики влияют на разные версии CLIP, подготовленные к работе с разными источниками предварительного обучения (pre-training datasets).
Методология также включала сравнение разных квантово-сознательных тренировочных методов (quantization-aware training), чтобы определить, какие из них дают наибольшую выгоду в трех областях: точности, калибровке и OOD-надежности.
## Результаты
Результаты показали, что квантование, в основном, приводит к значительному улучшению калибровки (calibration) для моделей, которые изначально были "недоуверенными" (underconfident) в своих предсказаниях. Таким образом, эти модели становятся более надежными в определении "слишком высокой" или "слишком низкой" уверенности в своих ответах.
Однако, для моделей, которые изначально "переуверенны" (overconfident), квантование может привести к ухудшению калибровки. Несмотря на это, даже для таких моделей, квантование положительно влияло на другие метрики надежности, такие как OOD-детекция.
В результате обнаружено, что применение конкретных методов квантования-сознательного обучения (Quantization-Aware Training) позволяет получить выгоду во всех трех областях: точности, калибровки и OOD-надежности одновременно, что
Abstract
The powerful zero-shot generalization capabilities of vision-language models
(VLMs) like CLIP have enabled new paradigms for safety-related tasks such as
out-of-distribution (OOD) detection. However, additional aspects crucial for
the computationally efficient and reliable deployment of CLIP are still
overlooked. In particular, the impact of quantization on CLIP's performance
beyond accuracy remains underexplored. This work presents a large-scale
evaluation of quantization on CLIP models, assessing not only in-distribution
accuracy but a comprehensive suite of reliability metrics and revealing
counterintuitive results driven by pre-training source. We demonstrate that
quantization consistently improves calibration for typically underconfident
pre-trained models, while often degrading it for overconfident variants.
Intriguingly, this degradation in calibration does not preclude gains in other
reliability metrics; we find that OOD detection can still improve for these
same poorly calibrated models. Furthermore, we identify specific
quantization-aware training (QAT) methods that yield simultaneous gains in
zero-shot accuracy, calibration, and OOD robustness, challenging the view of a
strict efficiency-performance trade-off. These findings offer critical insights
for navigating the multi-objective problem of deploying efficient, reliable,
and robust VLMs by utilizing quantization beyond its conventional role.
Ссылки и действия
Дополнительные ресурсы: