FrEVL: Leveraging Frozen Pretrained Embeddings for Efficient Vision-Language Understanding
2508.04469v1
cs.CV, cs.CL
2025-08-09
Авторы:
Emmanuelle Bourigault, Pauline Bourigault
Резюме на русском
Многие визуально-языковые модели страдают от высоких требований к вычислительным ресурсам, что ограничивает их развёртывание. В статье представлена фреймворм FrEVL, который исследует возможность использования замороженных предобученных векторных представлений для эффективного визуально-языкового понимания. Авторы показывают, что такие векторы содержат достаточно информации для решения задач с точностью от 85% до 95% от современных моделей, используя всего 68.4M тренируемых параметров. Однако эффективность зависит от того, насколько целевые задачи подходят для предобученных векторов. Когда рассматривается полный цикл вычислений, включая экстракцию векторов, FrEVL демонстрирует скорострельность в два раза и энергоэффективность в 52% по сравнению с полным развертыванием модели. Это делает его привлекательным для сценариев с предварительно обработанными входными данными или строгими ограничениями на ресурсы. Результаты показывают, что замороженные предобученные векторы могут быть реальным альтернативным подходом в ряде случаев.
Abstract
The deployment of vision-language models remains constrained by substantial
computational requirements. We present \textbf{FrEVL}, a framework exploring
whether frozen pretrained embeddings can support effective vision-language
understanding. Our analysis reveals that frozen embeddings contain rich
information for discriminative tasks, achieving 85\% to 95\% of
state-of-the-art performance on standard benchmarks with only 68.4M trainable
parameters. This performance dichotomy reveals a critical insight: frozen
embedding effectiveness depends on alignment between pretraining objectives and
downstream task requirements. When accounting for end-to-end computation
including embedding extraction, FrEVL provides $2.3\times$ speedup with 52\%
lower energy consumption, making it suitable for scenarios with pre-computable
inputs or when deployment constraints outweigh marginal performance gains. Our
evaluation provides practitioners with guidance on when frozen embedding
approaches represent viable alternatives to full model deployment. We will
release our complete implementation and evaluation framework to facilitate
further research into efficient multi-modal understanding.
Ссылки и действия
Дополнительные ресурсы: