Fourier-VLM: Compressing Vision Tokens in the Frequency Domain for Large Vision-Language Models

2508.06038v2 cs.CV, cs.AI 2025-08-12

Авторы:

Huanyu Wang, Jushi Kai, Haoli Bai, Lu Hou, Bo Jiang, Ziwei He, Zhouhan Lin

Резюме на русском

#### Контекст Vision-Language Models (VLMs) являются ключевыми инструментами в области глубокого обучения, объединяющими возможности обработки текстов и изображений. Однако они сталкиваются с проблемой высокой вычислительной нагрузки, возникающей из-за большого количества визуальных токенов, необходимых для обработки изображений. Эти токены вводятся в модель через изображения, и их обработка требует значительных ресурсов. Это приводит к увеличению задержки инференса и ухудшению эффективности моделей. Таким образом, необходимо разработать методы, способные эффективно сжимать визуальные токены без потери качества или увеличения затрат. #### Метод Fourier-VLM предлагает уникальный подход к сжатию визуальных токенов, основанный на использовании преобразования Дискретного Косинуса (DCT) в двухмерном виде. Эта методика использует факт, что визуальные признаки, полученные с помощью современных оптических потоков, содержат большую часть своей энергии в низких частотных компонентах. Fourier-VLM применяет низкочастотный фильтр к визуальным признакам с помощью Фурье-преобразования, которое может быть эффективно реализовано с помощью Fast Fourier Transform (FFT), имеющего сложность $\mathcal{O}(n\log n)$. Этот подход является простым, но эффективным и не добавляет дополнительных параметров к модели. #### Результаты Эксперименты показали, что Fourier-VLM эффективно сжимает визуальные токены, сокращая их количество до 83.8% по сравнению с LLaVA-v1.5. Это приводит к существенному уменьшению количества FLOPs и увеличению скорости генерации текста на 31.2%. Эксперименты проводились на различных бенчмарках, и в результате Fourier-VLM демонстрирует высокую обобщаемость и высокую эффективность на различных моделях, таких как LLaVA и Qwen-VL. Эти результаты подтверждают практическую значимость данного подхода в решении проблем высокой нагрузки в области VLMs. #### Значимость Метод Fourier-VLM может применяться в различных приложениях, где требуется эффективно обрабатывать большие объемы визуальных данных. Он позволяет снизить затраты на вычисления и ускорить процессы инференса, что крайне важно для реализации моделей в реальном времени и для приложений, требующих высокой производительности. Благодаря своему простому и гибкому дизайну, Fourier-VLM может быть легко модифицирован и интегрирован в разные модели VLMs, что повышает его привлекательность для практического применения. #### Выводы Fourier-VLM доказывает, что использование преобразования Фурье для сжатия визуальных токенов является эффективным и практичным подходом к решению проблем высокой нагрузки в VLMs. Он положительно сказы

Abstract

Vision-Language Models (VLMs) typically replace the predefined image placeholder token (<image>) in textual instructions with visual features from an image encoder, forming the input to a backbone Large Language Model (LLM). However, the large number of vision tokens significantly increases the context length, leading to high computational overhead and inference latency. While previous efforts mitigate this by selecting only important visual features or leveraging learnable queries to reduce token count, they often compromise performance or introduce substantial extra costs. In response, we propose Fourier-VLM, a simple yet efficient method that compresses visual representations in the frequency domain. Our approach is motivated by the observation that vision features output from the vision encoder exhibit concentrated energy in low-frequency components. Leveraging this, we apply a low-pass filter to the vision features using a two-dimensional Discrete Cosine Transform (DCT). Notably, the DCT is efficiently computed via the Fast Fourier Transform (FFT) operator with a time complexity of $\mathcal{O}(n\log n)$, minimizing the extra computational cost while introducing no additional parameters. Extensive experiments across various image-based benchmarks demonstrate that Fourier-VLM achieves competitive performance with strong generalizability across both LLaVA and Qwen-VL architectures. Crucially, it reduce inference FLOPs by up to 83.8% and boots generation speed by 31.2% compared to LLaVA-v1.5, highlighting the superior efficiency and practicality.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Fourier-VLM: Compressing Vision Tokens in the Frequency Domain for Large Vision-Language Models

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Dual-Stream Spectral Decoupling Distillation for Remote Sensing Object Detection

Explainable Parkinsons Disease Gait Recognition Using Multimodal RGB-D Fusion an...

GuidNoise: Single-Pair Guided Diffusion for Generalized Noise Synthesis

PhyVLLM: Physics-Guided Video Language Model with Motion-Appearance Disentanglem...

Detection of Intoxicated Individuals from Facial Video Sequences via a Recurrent...

Навигация