Fourier-VLM: Compressing Vision Tokens in the Frequency Domain for Large Vision-Language Models
2508.06038v2
cs.CV, cs.AI
2025-08-12
Авторы:
Huanyu Wang, Jushi Kai, Haoli Bai, Lu Hou, Bo Jiang, Ziwei He, Zhouhan Lin
Резюме на русском
#### Контекст
Vision-Language Models (VLMs) являются ключевыми инструментами в области глубокого обучения, объединяющими возможности обработки текстов и изображений. Однако они сталкиваются с проблемой высокой вычислительной нагрузки, возникающей из-за большого количества визуальных токенов, необходимых для обработки изображений. Эти токены вводятся в модель через изображения, и их обработка требует значительных ресурсов. Это приводит к увеличению задержки инференса и ухудшению эффективности моделей. Таким образом, необходимо разработать методы, способные эффективно сжимать визуальные токены без потери качества или увеличения затрат.
#### Метод
Fourier-VLM предлагает уникальный подход к сжатию визуальных токенов, основанный на использовании преобразования Дискретного Косинуса (DCT) в двухмерном виде. Эта методика использует факт, что визуальные признаки, полученные с помощью современных оптических потоков, содержат большую часть своей энергии в низких частотных компонентах. Fourier-VLM применяет низкочастотный фильтр к визуальным признакам с помощью Фурье-преобразования, которое может быть эффективно реализовано с помощью Fast Fourier Transform (FFT), имеющего сложность $\mathcal{O}(n\log n)$. Этот подход является простым, но эффективным и не добавляет дополнительных параметров к модели.
#### Результаты
Эксперименты показали, что Fourier-VLM эффективно сжимает визуальные токены, сокращая их количество до 83.8% по сравнению с LLaVA-v1.5. Это приводит к существенному уменьшению количества FLOPs и увеличению скорости генерации текста на 31.2%. Эксперименты проводились на различных бенчмарках, и в результате Fourier-VLM демонстрирует высокую обобщаемость и высокую эффективность на различных моделях, таких как LLaVA и Qwen-VL. Эти результаты подтверждают практическую значимость данного подхода в решении проблем высокой нагрузки в области VLMs.
#### Значимость
Метод Fourier-VLM может применяться в различных приложениях, где требуется эффективно обрабатывать большие объемы визуальных данных. Он позволяет снизить затраты на вычисления и ускорить процессы инференса, что крайне важно для реализации моделей в реальном времени и для приложений, требующих высокой производительности. Благодаря своему простому и гибкому дизайну, Fourier-VLM может быть легко модифицирован и интегрирован в разные модели VLMs, что повышает его привлекательность для практического применения.
#### Выводы
Fourier-VLM доказывает, что использование преобразования Фурье для сжатия визуальных токенов является эффективным и практичным подходом к решению проблем высокой нагрузки в VLMs. Он положительно сказы
Abstract
Vision-Language Models (VLMs) typically replace the predefined image
placeholder token (<image>) in textual instructions with visual features from
an image encoder, forming the input to a backbone Large Language Model (LLM).
However, the large number of vision tokens significantly increases the context
length, leading to high computational overhead and inference latency. While
previous efforts mitigate this by selecting only important visual features or
leveraging learnable queries to reduce token count, they often compromise
performance or introduce substantial extra costs. In response, we propose
Fourier-VLM, a simple yet efficient method that compresses visual
representations in the frequency domain. Our approach is motivated by the
observation that vision features output from the vision encoder exhibit
concentrated energy in low-frequency components. Leveraging this, we apply a
low-pass filter to the vision features using a two-dimensional Discrete Cosine
Transform (DCT). Notably, the DCT is efficiently computed via the Fast Fourier
Transform (FFT) operator with a time complexity of $\mathcal{O}(n\log n)$,
minimizing the extra computational cost while introducing no additional
parameters. Extensive experiments across various image-based benchmarks
demonstrate that Fourier-VLM achieves competitive performance with strong
generalizability across both LLaVA and Qwen-VL architectures. Crucially, it
reduce inference FLOPs by up to 83.8% and boots generation speed by 31.2%
compared to LLaVA-v1.5, highlighting the superior efficiency and practicality.
Ссылки и действия
Дополнительные ресурсы: