Compressed Models are NOT Trust-equivalent to Their Large Counterparts

2508.13533v1 cs.CL, cs.LG 2025-08-21
Авторы:

Rohit Raj Rai, Chirag Kothari, Siddhesh Shelke, Amit Awekar

Резюме на русском

## Контекст Современные глубокие нейронные сети (DNN) значительно улучшили результаты в области машинного обучения, но они требуют больших ресурсов для обучения и развертывания. Чтобы решить проблему ресурсоемкости, широко используются методы сжатия моделей, такие как пружинное склеивание, постепенное уменьшение размера сети или применение низкоранговых оптимизаций. Однако после сжатия модель может потерять качество или отличаться функциональностью, что негативно сказывается на доверии пользователей к сжатым моделям. Хотя имеется много исследований по измерению точности, скорости и эффективности сжатых моделей, недостаточно уделяется внимания аспекту доверия к результатам модели, который важен для решений в реальном мире. Мы предлагаем двухмерную рамку для оценки доверительности, которая исследует, в какой степени результаты сжатых моделей эквивалентны результатам больших моделей. ## Метод Мы разработали двухмерную рамку для оценки доверительности сжатых моделей. Первый аспект — **интерпретируемость** — измеряется с помощью LIME (Local Interpretable Model-agnostic Explanations) и SHAP (SHapley Additive exPlanations) для определения, на каких инпутных признаках основываются модели для своих прогнозов. Таким образом, можно сравнить, имеют ли модели одинаковые принципы принятия решений. Второй аспект — **калибровочная похожесть** — оценивается с помощью метрик, таких как ECE (Expected Calibration Error), MCE (Maximum Calibration Error), Brier Score и диаграммами надежности. Эти метрики показывают, насколько надежны прогнозы моделей в отношении уверенности в своих прогнозах. Мы применили эту рамку к модели BERT-base и ее сжатым вариантам для решения задач натурального языкового интерпретации (NLI) и парафразирования. ## Результаты Результаты экспериментов показали, что сжатые модели, хотя и демонстрируют почти одинаковую точность, значительно отличаются от больших моделей по интерпретируемости и калибровочной похожести. Интерпретируемость сжатых моделей была значительно ниже, потому что они основывались на других признаках инпута для принятия решений. Кроме того, прогнозы сжатых моделей были менее надежны, так как они показывали более существенные несоответствия между прогнозируемой уверенностью и фактическими результатами. Эти результаты демонстрируют, что сжатые модели не являются функционально эквивалентными большим моделям, даже когда их точность почти сходна. ## Значимость Наши находки имеют важное значение для области сжатых моделей, где требуется высокое доверие к результатам. Например, в системах принятия решений в области здравоохранения, финансов или юридических систем сжатые модели могут приводить к не

Abstract

Large Deep Learning models are often compressed before being deployed in a resource-constrained environment. Can we trust the prediction of compressed models just as we trust the prediction of the original large model? Existing work has keenly studied the effect of compression on accuracy and related performance measures. However, performance parity does not guarantee trust-equivalence. We propose a two-dimensional framework for trust-equivalence evaluation. First, interpretability alignment measures whether the models base their predictions on the same input features. We use LIME and SHAP tests to measure the interpretability alignment. Second, calibration similarity measures whether the models exhibit comparable reliability in their predicted probabilities. It is assessed via ECE, MCE, Brier Score, and reliability diagrams. We conducted experiments using BERT-base as the large model and its multiple compressed variants. We focused on two text classification tasks: natural language inference and paraphrase identification. Our results reveal low interpretability alignment and significant mismatch in calibration similarity. It happens even when the accuracies are nearly identical between models. These findings show that compressed models are not trust-equivalent to their large counterparts. Deploying compressed models as a drop-in replacement for large models requires careful assessment, going beyond performance parity.

Ссылки и действия