Interpreting Attention Heads for Image-to-Text Information Flow in Large Vision-Language Models
2509.17588v1
cs.CV, cs.AI, cs.LG
2025-09-24
Авторы:
Jinyeong Kim, Seil Kang, Jiwoo Park, Junhyeok Kim, Seong Jae Hwang
Резюме на русском
#### Контекст
Modern Large Vision-Language Models (LVLMs) представляют собой сложные системы, которые способны выполнять задачи, такие как обнаружение объектов, генерация текста и объяснение изображений, путем взаимодействия между двумя модальностями — изображениями и текстом. Одним из ключевых аспектов LVLMs является процесс передачи информации из изображения в текст (image-to-text information flow), который центральен для решения задач визуальных вопросов (visual question answering). Тем не менее, процесс этого потока информации не полностью понятен из-за работы многочисленных attention heads, которые одновременно производят работу. Это создает сложности в интерпретации и понимании того, как LVLMs обрабатывают информацию. Мы предлагаем новую методику, называемую head attribution, чтобы раскрыть эти сложности и определить ключевые attention heads, которые играют ключевую роль в процессе передачи информации.
#### Метод
Мы предлагаем метод head attribution, который построен на принципах подходов к аттрибуции компонентов (component attribution methods). Этот метод работает с тем, чтобы определить значимые attention heads, которые играют ключевую роль в передаче информации из изображения в текст. Мы применяем эту технику для исследования того, какие attention heads активируются при обработке визуальных вопросов, а также для раскрытия связей между изображениями и текстом. Метод построен на анализе собственных вибраций (eigen-analysis) внутри attention heads, что позволяет выявить структуру и характеристики их работы. Это позволяет получить подробный погляд на то, как LVLMs обрабатывают взаимодействие изображений и текста.
#### Результаты
Мы провели эксперименты с использованием данных, состоящих из визуальных вопросов и ответов, чтобы проверить нашу методику. Наши результаты показали, что в LVLMs существует конкретный набор attention heads, который активен при обработке вопросов о главном объекте в изображении. Мы обнаружили, что эти heads не определяются по визуальным характеристикам изображения, а скорее по его семантическому содержанию. Кроме того, мы выявили, что text information первым делом распространяется на role-related токены и токен за концом фразы, а image information вложена в токены, относящиеся к объектам и фоновым элементам. Эти результаты подтверждают, что image-to-text information flow в LVLMs следует определенной структуре, а исследование attention heads может стать мощным инструментом для понимания механизмов, применяемых этими моделями.
#### Значимость
Наша работа имеет значимость в разных областях применения, включая computer vision, natural language processing и multimodal understanding. Метод head attribution может использоваться для выявления и понимания моделей, которые взаимодействуют с изображениями и текстом. Он предоставляет новые возможности для читаемости и отладки таких моделей. Кроме того, наше исследование по
Abstract
Large Vision-Language Models (LVLMs) answer visual questions by transferring
information from images to text through a series of attention heads. While this
image-to-text information flow is central to visual question answering, its
underlying mechanism remains difficult to interpret due to the simultaneous
operation of numerous attention heads. To address this challenge, we propose
head attribution, a technique inspired by component attribution methods, to
identify consistent patterns among attention heads that play a key role in
information transfer. Using head attribution, we investigate how LVLMs rely on
specific attention heads to identify and answer questions about the main object
in an image. Our analysis reveals that a distinct subset of attention heads
facilitates the image-to-text information flow. Remarkably, we find that the
selection of these heads is governed by the semantic content of the input image
rather than its visual appearance. We further examine the flow of information
at the token level and discover that (1) text information first propagates to
role-related tokens and the final token before receiving image information, and
(2) image information is embedded in both object-related and background tokens.
Our work provides evidence that image-to-text information flow follows a
structured process, and that analysis at the attention-head level offers a
promising direction toward understanding the mechanisms of LVLMs.
Ссылки и действия
Дополнительные ресурсы: