WAVECLIP: Wavelet Tokenization for Adaptive-Resolution CLIP

2509.21153v1 cs.CV, cs.AI, cs.MM 2025-09-27
Авторы:

Moshe Kimhi, Erez Koifman, Ehud Rivlin, Eli Schwartz, Chaim Baskin

Резюме на русском

#### Контекст На сегодняшний день, модели глубокого обучения, особенно в области зрительных задач, требуют больших вычислительных ресурсов. Многие из них работают с фиксированной разрешенностью входных данных, что ограничивает их эффективность при работе с изображениями различных размеров и качеств. Наличие необходимости учитывать все такие факторы подталкивает к разработке моделей, способных адаптироваться к задаче в любом времени. Одной из таких задач является adaptive resolution inference в CLIP (Contrastive Language-Image Pretraining). CLIP — мощная модель, которая признана эффективной в широком кругу задач зрительного понимания. Однако, возникают проблемы, связанные с расходом ресурсов на вычисления при работе с изображениями разного разрешения. Модель WAVECLIP предлагает решение этой проблемы, обеспечивая эффективную инференцию с выбором уровня разрешения "на лету". #### Метод WAVECLIP является первой моделью, использующей wavelet-based tokenization для adaptive resolution inference в CLIP. В этой модели изображения не обрабатываются как патчи, а представляются в виде многоуровневого wavelet-преобразования. Последовательность wavelet-составляющих (LL, LH, HL, HH) соответствуют уровням разрешения, начиная с конечного, и заканчивая полным разрешением. Затем изображение передается через сеть со слоями wavelet-трансформации и автокодировщиком. Архитектура также включает key-value caching и causal cross-level attention, что позволяет модели разделять усиленные вычисления только по мере необходимости. Эта структура позволяет WAVECLIP стимулировать вычисление только уровней, где это необходимо, что экономит вычислительные ресурсы. #### Результаты WAVECLIP была проверена в целом спектре зрительных задач, включая zero-shot classification. Для этих целей, модель использовала механизм gated confidence, который позволяет выполнять вычисления только при уверенности в точности. Результаты показали, что модель WAVECLIP достигает высокой точности с значительной экономией ресурсов по сравнению с другими моделями. Например, при использовании той же архитектуры, WAVECLIP реализует adaptive resolution inference, что позволяет выбирать степень разрешения и эффективность вычислений. Это демонстрирует преимущество модели в ситуациях, где требуется высокая скорость вывода при ограниченных ресурсах. #### Значимость WAVECLIP имеет широкие области применения в компьютерном зрении, где необходимо обрабатывать изображения разных размеров и качеств, таких как медицинские изображения, снимки с авиационных спутников, видеонаблюдение и т.д. Для таких задач, модель WAVECLIP может значительно сократить вычислительные затраты, в то же время сохраняя высокую точность. Благодаря своей универсальности, WAVECLIP может быть легко интегрирована в различные системы

Abstract

We introduce WAVECLIP, a single unified model for adaptive resolution inference in CLIP, enabled by wavelet-based tokenization. WAVECLIP replaces standard patch embeddings with a multi-level wavelet decomposition, enabling the model to process images coarse to fine while naturally supporting multiple resolutions within the same model. At inference time, the model begins with low resolution tokens and refines only when needed, using key-value caching and causal cross-level attention to reuse computation, effectively introducing to the model only new information when needed. We evaluate WAVECLIP in zero-shot classification, demonstrating that a simple confidence-based gating mechanism enables adaptive early exits. This allows users to dynamically choose a compute-accuracy trade-off using a single deployed model. Our approach requires only lightweight distillation from a frozen CLIP teacher and achieves competitive accuracy with significant computational savings.

Ссылки и действия