LUQ: Layerwise Ultra-Low Bit Quantization for Multimodal Large Language Models

2509.23729v1 cs.CV, cs.AI, cs.LG, eess.IV 2025-10-01
Авторы:

Shubhang Bhatnagar, Andy Xu, Kar-Han Tan, Narendra Ahuja

Резюме на русском

#### Контекст Large Language Models (LLMs) с возможностями визуально-языковых задач (Vision-Language Tasks) превратились в ключевые средства для широкого круга приложений, включая визуальный ответ на вопросы (Visual Question Answering, VQA) и генерацию образов по текстовым подсказкам. Однако их масштабирование и развертывание часто сталкиваются с ограничениями в памяти и вычислительных ресурсах. Хотя методы постобучения кодирования (post-training quantization, PTQ) способны значительно сжать модели с 32-битной до 1-битной точности, сохраняя при этом почти те же показатели качества, для multimodal LLMs (MLLMs) эффективность таких методов остается мало изученной. Наша мотивация заключается в изучении эффективных методов кодирования для MLLMs, что позволит уменьшить их размер без значительного ухудшения качества. #### Метод Мы предлагаем новую методологию, названную **LUQ (Layerwise Ultra-Low Bit Quantization)**, которая лексически кодирует слои модели в зависимости от их устойчивости к ultra-low bit quantization. Для этого проводятся подробные анализы динамики и распределения промежуточных слоев модели, определяя те слои, которые могут лучше переносить низкобитное кодирование. Мы также используем смешанные входы (image-text) для повышения точности PTQ в ultra-low bit режиме. Наша архитектура LUQ выбирает слои, которые могут использовать ultra-low bit quantization, при этом применяя более высокую точность к более чувствительным слоям. #### Результаты Мы проводим эксперименты с LUQ на моделях LLaVA-1.5 и Qwen-2.5-VL на 9 VQA-benchmarks. Результаты показывают, что LUQ уменьшает память, используемую моделью, на 40% для LLaVA-1.5 и на 31% для Qwen-2.5-VL, сохраняя производительность на уровне менее 10% от оригинала на MME benchmark. Эти результаты демонстрируют эффективность LUQ в сокращении размера MLLMs без значительного потери качества. #### Значимость LUQ может быть применено в различных сценариях, где необходимо снизить ресурсоемкость работы моделей, такие как мобильные приложения, облачные сервисы и реальном времени задачи. Наш метод предоставляет значительные преимущества, такие как меньшее потребление ресурсов и сохранение высокого качества результатов. Мы уверены, что LUQ открывает новые перспективы для развития MLLMs, особенно в области визуально-языковых задач. #### Выводы Мы представили LUQ, первую стратегию layerwise ultra-low bit quantization для multimodal LLMs. Наши результаты показывают, что LUQ эффективно уменьшает размер моделей, которые используются в VQA, с минимальным ущербом качества. Мы планируем провести дополнительные исследования для расширения LUQ на другие модели и задачи, а также для улучшения ее устойчивости к различным входным данным.

Abstract

Large Language Models (LLMs) with multimodal capabilities have revolutionized vision-language tasks, but their deployment often requires huge memory and computational resources. While post-training quantization (PTQ) has successfully compressed language models to as low as 1-bit precision without significant performance loss, its effectiveness for multimodal LLMs (MLLMs) remains relatively unexplored. In this paper, we present the first study on ultra-low bit (<4-bit) quantization for multimodal LLMs. Our analysis reveals that multimodal tokens and intermediate layer activations produced by them exhibit significantly higher statistical variance and entropy compared to text tokens, making them less tolerant to ultra-low bit quantization. However, the activation distributions of multimodal tokens varies significantly over different layers, with some layers having lower entropy activation distributions. We empirically show that such layers in these models can better tolerate ultra-low bit quantization. Building on these insights, we propose a novel strategy for MLLM quantization, LUQ: Layerwise Ultra-Low Bit Quantization, which selectively applies ultra-low bit quantization to layers that are more resilient to it. Additionally, we also show that using a mix of multimodal tokens (image and text) for PTQ boosts VQA performance in the ultra-low bit regime. We evaluate our method on LLaVA-1.5 and Qwen-2.5-VL across 9 popular VQA benchmarks. The resulting LUQ models use 40% and 31% less memory than their 4-bit counterparts, respectively, while exhibiting a performance degradation of less than 10% on the MME benchmark.

Ссылки и действия