FrEVL: Leveraging Frozen Pretrained Embeddings for Efficient Vision-Language Understanding

2508.04469v1 cs.CV, cs.CL 2025-08-09

Авторы:

Emmanuelle Bourigault, Pauline Bourigault

Резюме на русском

Многие визуально-языковые модели страдают от высоких требований к вычислительным ресурсам, что ограничивает их развёртывание. В статье представлена фреймворм FrEVL, который исследует возможность использования замороженных предобученных векторных представлений для эффективного визуально-языкового понимания. Авторы показывают, что такие векторы содержат достаточно информации для решения задач с точностью от 85% до 95% от современных моделей, используя всего 68.4M тренируемых параметров. Однако эффективность зависит от того, насколько целевые задачи подходят для предобученных векторов. Когда рассматривается полный цикл вычислений, включая экстракцию векторов, FrEVL демонстрирует скорострельность в два раза и энергоэффективность в 52% по сравнению с полным развертыванием модели. Это делает его привлекательным для сценариев с предварительно обработанными входными данными или строгими ограничениями на ресурсы. Результаты показывают, что замороженные предобученные векторы могут быть реальным альтернативным подходом в ряде случаев.

Abstract

The deployment of vision-language models remains constrained by substantial computational requirements. We present \textbf{FrEVL}, a framework exploring whether frozen pretrained embeddings can support effective vision-language understanding. Our analysis reveals that frozen embeddings contain rich information for discriminative tasks, achieving 85\% to 95\% of state-of-the-art performance on standard benchmarks with only 68.4M trainable parameters. This performance dichotomy reveals a critical insight: frozen embedding effectiveness depends on alignment between pretraining objectives and downstream task requirements. When accounting for end-to-end computation including embedding extraction, FrEVL provides $2.3\times$ speedup with 52\% lower energy consumption, making it suitable for scenarios with pre-computable inputs or when deployment constraints outweigh marginal performance gains. Our evaluation provides practitioners with guidance on when frozen embedding approaches represent viable alternatives to full model deployment. We will release our complete implementation and evaluation framework to facilitate further research into efficient multi-modal understanding.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

FrEVL: Leveraging Frozen Pretrained Embeddings for Efficient Vision-Language Understanding

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Text-Only Training for Image Captioning with Retrieval Augmentation and Modality...

Generalized Medical Phrase Grounding

CartoMapQA: A Fundamental Benchmark Dataset Evaluating Vision-Language Models on...

Thinking with Programming Vision: Towards a Unified View for Thinking with Image...

See, Think, Learn: A Self-Taught Multimodal Reasoner

Навигация