Interpreting Attention Heads for Image-to-Text Information Flow in Large Vision-Language Models

2509.17588v1 cs.CV, cs.AI, cs.LG 2025-09-24

Авторы:

Jinyeong Kim, Seil Kang, Jiwoo Park, Junhyeok Kim, Seong Jae Hwang

Резюме на русском

#### Контекст Modern Large Vision-Language Models (LVLMs) представляют собой сложные системы, которые способны выполнять задачи, такие как обнаружение объектов, генерация текста и объяснение изображений, путем взаимодействия между двумя модальностями — изображениями и текстом. Одним из ключевых аспектов LVLMs является процесс передачи информации из изображения в текст (image-to-text information flow), который центральен для решения задач визуальных вопросов (visual question answering). Тем не менее, процесс этого потока информации не полностью понятен из-за работы многочисленных attention heads, которые одновременно производят работу. Это создает сложности в интерпретации и понимании того, как LVLMs обрабатывают информацию. Мы предлагаем новую методику, называемую head attribution, чтобы раскрыть эти сложности и определить ключевые attention heads, которые играют ключевую роль в процессе передачи информации. #### Метод Мы предлагаем метод head attribution, который построен на принципах подходов к аттрибуции компонентов (component attribution methods). Этот метод работает с тем, чтобы определить значимые attention heads, которые играют ключевую роль в передаче информации из изображения в текст. Мы применяем эту технику для исследования того, какие attention heads активируются при обработке визуальных вопросов, а также для раскрытия связей между изображениями и текстом. Метод построен на анализе собственных вибраций (eigen-analysis) внутри attention heads, что позволяет выявить структуру и характеристики их работы. Это позволяет получить подробный погляд на то, как LVLMs обрабатывают взаимодействие изображений и текста. #### Результаты Мы провели эксперименты с использованием данных, состоящих из визуальных вопросов и ответов, чтобы проверить нашу методику. Наши результаты показали, что в LVLMs существует конкретный набор attention heads, который активен при обработке вопросов о главном объекте в изображении. Мы обнаружили, что эти heads не определяются по визуальным характеристикам изображения, а скорее по его семантическому содержанию. Кроме того, мы выявили, что text information первым делом распространяется на role-related токены и токен за концом фразы, а image information вложена в токены, относящиеся к объектам и фоновым элементам. Эти результаты подтверждают, что image-to-text information flow в LVLMs следует определенной структуре, а исследование attention heads может стать мощным инструментом для понимания механизмов, применяемых этими моделями. #### Значимость Наша работа имеет значимость в разных областях применения, включая computer vision, natural language processing и multimodal understanding. Метод head attribution может использоваться для выявления и понимания моделей, которые взаимодействуют с изображениями и текстом. Он предоставляет новые возможности для читаемости и отладки таких моделей. Кроме того, наше исследование по

Abstract

Large Vision-Language Models (LVLMs) answer visual questions by transferring information from images to text through a series of attention heads. While this image-to-text information flow is central to visual question answering, its underlying mechanism remains difficult to interpret due to the simultaneous operation of numerous attention heads. To address this challenge, we propose head attribution, a technique inspired by component attribution methods, to identify consistent patterns among attention heads that play a key role in information transfer. Using head attribution, we investigate how LVLMs rely on specific attention heads to identify and answer questions about the main object in an image. Our analysis reveals that a distinct subset of attention heads facilitates the image-to-text information flow. Remarkably, we find that the selection of these heads is governed by the semantic content of the input image rather than its visual appearance. We further examine the flow of information at the token level and discover that (1) text information first propagates to role-related tokens and the final token before receiving image information, and (2) image information is embedded in both object-related and background tokens. Our work provides evidence that image-to-text information flow follows a structured process, and that analysis at the attention-head level offers a promising direction toward understanding the mechanisms of LVLMs.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Interpreting Attention Heads for Image-to-Text Information Flow in Large Vision-Language Models

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

PyroFocus: A Deep Learning Approach to Real-Time Wildfire Detection in Multispec...

ProtoEFNet: Dynamic Prototype Learning for Inherently Interpretable Ejection Fra...

GalaxyDiT: Efficient Video Generation with Guidance Alignment and Adaptive Proxy...

Divide, then Ground: Adapting Frame Selection to Query Types for Long-Form Video...

PSA: Pyramid Sparse Attention for Efficient Video Understanding and Generation

Навигация