LUQ: Layerwise Ultra-Low Bit Quantization for Multimodal Large Language Models
2509.23729v1
cs.CV, cs.AI, cs.LG, eess.IV
2025-10-01
Авторы:
Shubhang Bhatnagar, Andy Xu, Kar-Han Tan, Narendra Ahuja
Резюме на русском
#### Контекст
Large Language Models (LLMs) с возможностями визуально-языковых задач (Vision-Language Tasks) превратились в ключевые средства для широкого круга приложений, включая визуальный ответ на вопросы (Visual Question Answering, VQA) и генерацию образов по текстовым подсказкам. Однако их масштабирование и развертывание часто сталкиваются с ограничениями в памяти и вычислительных ресурсах. Хотя методы постобучения кодирования (post-training quantization, PTQ) способны значительно сжать модели с 32-битной до 1-битной точности, сохраняя при этом почти те же показатели качества, для multimodal LLMs (MLLMs) эффективность таких методов остается мало изученной. Наша мотивация заключается в изучении эффективных методов кодирования для MLLMs, что позволит уменьшить их размер без значительного ухудшения качества.
#### Метод
Мы предлагаем новую методологию, названную **LUQ (Layerwise Ultra-Low Bit Quantization)**, которая лексически кодирует слои модели в зависимости от их устойчивости к ultra-low bit quantization. Для этого проводятся подробные анализы динамики и распределения промежуточных слоев модели, определяя те слои, которые могут лучше переносить низкобитное кодирование. Мы также используем смешанные входы (image-text) для повышения точности PTQ в ultra-low bit режиме. Наша архитектура LUQ выбирает слои, которые могут использовать ultra-low bit quantization, при этом применяя более высокую точность к более чувствительным слоям.
#### Результаты
Мы проводим эксперименты с LUQ на моделях LLaVA-1.5 и Qwen-2.5-VL на 9 VQA-benchmarks. Результаты показывают, что LUQ уменьшает память, используемую моделью, на 40% для LLaVA-1.5 и на 31% для Qwen-2.5-VL, сохраняя производительность на уровне менее 10% от оригинала на MME benchmark. Эти результаты демонстрируют эффективность LUQ в сокращении размера MLLMs без значительного потери качества.
#### Значимость
LUQ может быть применено в различных сценариях, где необходимо снизить ресурсоемкость работы моделей, такие как мобильные приложения, облачные сервисы и реальном времени задачи. Наш метод предоставляет значительные преимущества, такие как меньшее потребление ресурсов и сохранение высокого качества результатов. Мы уверены, что LUQ открывает новые перспективы для развития MLLMs, особенно в области визуально-языковых задач.
#### Выводы
Мы представили LUQ, первую стратегию layerwise ultra-low bit quantization для multimodal LLMs. Наши результаты показывают, что LUQ эффективно уменьшает размер моделей, которые используются в VQA, с минимальным ущербом качества. Мы планируем провести дополнительные исследования для расширения LUQ на другие модели и задачи, а также для улучшения ее устойчивости к различным входным данным.
Abstract
Large Language Models (LLMs) with multimodal capabilities have revolutionized
vision-language tasks, but their deployment often requires huge memory and
computational resources. While post-training quantization (PTQ) has
successfully compressed language models to as low as 1-bit precision without
significant performance loss, its effectiveness for multimodal LLMs (MLLMs)
remains relatively unexplored. In this paper, we present the first study on
ultra-low bit (<4-bit) quantization for multimodal LLMs. Our analysis reveals
that multimodal tokens and intermediate layer activations produced by them
exhibit significantly higher statistical variance and entropy compared to text
tokens, making them less tolerant to ultra-low bit quantization. However, the
activation distributions of multimodal tokens varies significantly over
different layers, with some layers having lower entropy activation
distributions. We empirically show that such layers in these models can better
tolerate ultra-low bit quantization. Building on these insights, we propose a
novel strategy for MLLM quantization, LUQ: Layerwise Ultra-Low Bit
Quantization, which selectively applies ultra-low bit quantization to layers
that are more resilient to it. Additionally, we also show that using a mix of
multimodal tokens (image and text) for PTQ boosts VQA performance in the
ultra-low bit regime. We evaluate our method on LLaVA-1.5 and Qwen-2.5-VL
across 9 popular VQA benchmarks. The resulting LUQ models use 40% and 31% less
memory than their 4-bit counterparts, respectively, while exhibiting a
performance degradation of less than 10% on the MME benchmark.