Dynamic Embedding of Hierarchical Visual Features for Efficient Vision-Language Fine-Tuning

2508.17638v1 cs.CV, cs.CL 2025-08-27
Авторы:

Xinyu Wei, Guoli Yang, Jialu Zhou, Mingyue Yang, Leqian Li, Kedi Zhang, Chunping Qiu

Резюме на русском

#### Контекст В последнее время становится все более актуальным использование визуальных данных в комбинации с текстовыми данными для решения различных задач, таких как визуально-языковые описания, вопросы-ответы и поиск информации. Одна из основных проблем в данной области – эффективное представление визуальных данных в моделях, которые обычно используются в визуально-языковых моделях (LVLMs). Большинство нынешних алгоритмов пытаются совместить визуальные и текстовые данные с помощью последовательностных моделей, что приводит к значительному увеличению длины входных последовательностей и, как следствие, к большому количеству вычислительных ресурсов, необходимых для обучения и интерпретации. Этот вопрос требует разработки более эффективных методов, которые могли бы уменьшить количество вычислений, не ухудшая точность результатов. #### Метод Мы предлагаем метод с именем DEHVF (Dynamic Embedding of Hierarchical Visual Features), который предназначен для эффективного визуально-языкового описания. Основная идея DEHVF заключается в том, чтобы использовать богатые внутренние структуры визуальных моделей, которые уже могут представлять визуальные данные на разных уровнях детализации. Мы предлагаем систему, которая может динамически выбирать и комбинировать эти уровни детализации в зависимости от контекста и задачи. Эта система включает в себя легковесный модуль, который выбирает информацию на разных уровнях детализации из визуальной модели и комбинирует ее с текстовыми данными. Это позволяет уменьшить количество необходимых вычислений, сохранив высокое качество решения задач. #### Результаты Мы провели эксперименты на нескольких бенчмарках в области визуально-языковых моделей, включая задачи визуального вопроса-ответа (например, ScienceQA) и автоматического описания изображений (например, COCO Captions). В результате наших испытаний, DEHVF показал значительное улучшение в точности в сравнении с другими методами, которые используются для эффективного визуально-языкового описания. Мы также могли обнаружить, что DEHVF требует меньше вычислительных ресурсов, что делает его более эффективным в терминах использования ресурсов. Это позволяет использовать DEHVF в сценариях, где требуется быстрая и точная обработка визуально-языковых данных на ограниченных вычислительных ресурсах. #### Значимость Предлагаемый метод DEHVF может быть применен в различных сферах, где требуется эффективное визуально-языковое представление. Например, он может использоваться в системах поиска информации, системах визуального поиска и в системах, кото

Abstract

Large Vision-Language Models (LVLMs) commonly follow a paradigm that projects visual features and then concatenates them with text tokens to form a unified sequence input for Large Language Models (LLMs). However, this paradigm leads to a significant increase in the length of the input sequence, resulting in substantial computational overhead. Existing methods attempt to fuse visual information into the intermediate layers of LLMs, which alleviate the sequence length issue but often neglect the hierarchical semantic representations within the model and the fine-grained visual information available in the shallower visual encoding layers. To address this limitation, we propose DEHVF, an efficient vision-language fine-tuning method based on dynamic embedding and fusion of hierarchical visual features. Its core lies in leveraging the inherent hierarchical representation characteristics of visual encoders and language models. Through a lightweight hierarchical visual fuser, it dynamically selects and fuses hierarchical features corresponding to semantic granularity based on the internal representations of each layer in LLMs. The fused layer-related visual features are then projected and aligned before being directly embedded into the Feed-Forward Network (FFN) of the corresponding layer in LLMs. This approach not only avoids sequence expansion but also dynamically fuses multi-layer visual information. By fine-tuning only a small number of parameters, DEHVF achieves precise alignment and complementarity of cross-modal information at the same semantic granularity. We conducted experiments across various VL benchmarks, including visual question answering on ScienceQA and image captioning on COCO Captions. The results demonstrate that DEHVF achieves higher accuracy than existing parameter-efficient fine-tuning (PEFT) baselines while maintaining efficient training and inference.

Ссылки и действия