#### Контекст
Modern Large Vision-Language Models (LVLMs) представляют собой сложные системы, которые способны выполнять задачи, такие как обнаружение объектов, генерация текста и объяснение изображений, путем взаимодействия между двумя модальностями — изображениями и текстом. Одним из ключевых аспектов LVLMs является процесс передачи информации из изображения в текст (image-to-text information flow), который центральен для решения задач визуальных вопросов (visual question answering). Тем не менее, процесс этого потока информации не полностью понятен из-за работы многочисленных attention heads, которые одновременно производят работу. Это создает сложности в интерпретации и понимании того, как LVLMs обрабатывают информацию. Мы предлагаем новую методику, называемую head attribution, чтобы раскрыть эти сложности и определить ключевые attention heads, которые играют ключевую роль в процессе передачи информации.
#### Метод
Мы предлагаем метод head attribution, который построен на принципах подходов к аттрибуции компонентов (component attribution methods). Этот метод работает с тем, чтобы определить значимые attention heads, которые играют ключевую роль в передаче информации из изображения в текст. Мы применяем эту технику для исследования того, какие attention heads активируются при обработке визуальных вопросов, а также для раскрытия связей между изображениями и текстом. Метод построен на анализе собственных вибраций (eigen-analysis) внутри attention heads, что позволяет выявить структуру и характеристики их работы. Это позволяет получить подробный погляд на то, как LVLMs обрабатывают взаимодействие изображений и текста.
#### Результаты
Мы провели эксперименты с использованием данных, состоящих из визуальных вопросов и ответов, чтобы проверить нашу методику. Наши результаты показали, что в LVLMs существует конкретный набор attention heads, который активен при обработке вопросов о главном объекте в изображении. Мы обнаружили, что эти heads не определяются по визуальным характеристикам изображения, а скорее по его семантическому содержанию. Кроме того, мы выявили, что text information первым делом распространяется на role-related токены и токен за концом фразы, а image information вложена в токены, относящиеся к объектам и фоновым элементам. Эти результаты подтверждают, что image-to-text information flow в LVLMs следует определенной структуре, а исследование attention heads может стать мощным инструментом для понимания механизмов, применяемых этими моделями.
#### Значимость
Наша работа имеет значимость в разных областях применения, включая computer vision, natural language processing и multimodal understanding. Метод head attribution может использоваться для выявления и понимания моделей, которые взаимодействуют с изображениями и текстом. Он предоставляет новые возможности для читаемости и отладки таких моделей. Кроме того, наше исследование по