Seeing Through Words, Speaking Through Pixels: Deep Representational Alignment Between Vision and Language Models

2509.20751v1 cs.CV, cs.AI, cs.CL 2025-09-26
Авторы:

Zoe Wanying He, Sean Trott, Meenakshi Khosla

Резюме на русском

## Контекст В последние годы появились многочисленные модели основанные на глубоком обучении, которые уделяют особое внимание взаимодействию между визуальными и языковыми моделями. Эти модели обучаются на отдельных модальностях — визуальных и языковых данных — но при этом удается добиться какого-то уровня взаимодействия и схожести между ними. Однако существуют многочисленные вопросы, на которые пока что ответа не найдено. Например, где в сети возникает этот аллегонимный проект (представление в параллельном пространстве)? Какие конкретно визуальные или лингвистические признаки способствуют этому? Отвечает ли этот проект семантическим приоритетам человеческого восприятия? И как многообразие образов и текстов влияет на этот проект? Исследование этих вопросов может помочь лучше понять, насколько модели видения и языка совместимы с человеческим пониманием и как можно использовать это понимание в различных приложениях. ## Метод Для исследования взаимодействия визуальных и языковых моделей в этой работе предложена систематическая методология. В центре исследования — сравнение возможностей проекции визуальных и языковых моделей в общую плоскость представлений. Используются модели с разным уровнем сложности и различными архитектурами, включая топовые решения в области визуального и языкового понимания. Особое внимание уделяется сравнению результатов обработки различных визуальных и текстовых примеров, чтобы выявить, какие признаки влияют на уровень взаимодействия. Также проводились эксперименты с многообразием образов и текстов для оценки способности моделей распознавать гармонию между изображениями и текстами, а также для исследования влияния объема данных на уровень взаимодействия. ## Результаты Эксперименты показали, что взаимодействие между визуальными и языковыми моделями возникает в средних и поздних слоях моделей. Это отражает переход от модально-конкретных представлений к семантически общим. Этот проект оказывается устойчивым к изменениям внешних признаков (например, изменения внешнего вида объектов), но ломается при изменении семантических признаков (например, исключении объектов или изменении порядка слов в тексте). Был проведен эксперимент с задачей "Pick-a-Pic", где люди выбирали наиболее подходящие изображения под текстовые описания. Результаты показали, что модели способны согласовывать свои представления с человеческими взглядами, даже в ситуациях, когда есть много вариантов текстов для одного изображения. Особое внимание уделено роли среднего слоя в моделях: он позволяет моделям "понимать" изображение и текст одно

Abstract

Recent studies show that deep vision-only and language-only models--trained on disjoint modalities--nonetheless project their inputs into a partially aligned representational space. Yet we still lack a clear picture of where in each network this convergence emerges, what visual or linguistic cues support it, whether it captures human preferences in many-to-many image-text scenarios, and how aggregating exemplars of the same concept affects alignment. Here, we systematically investigate these questions. We find that alignment peaks in mid-to-late layers of both model types, reflecting a shift from modality-specific to conceptually shared representations. This alignment is robust to appearance-only changes but collapses when semantics are altered (e.g., object removal or word-order scrambling), highlighting that the shared code is truly semantic. Moving beyond the one-to-one image-caption paradigm, a forced-choice "Pick-a-Pic" task shows that human preferences for image-caption matches are mirrored in the embedding spaces across all vision-language model pairs. This pattern holds bidirectionally when multiple captions correspond to a single image, demonstrating that models capture fine-grained semantic distinctions akin to human judgments. Surprisingly, averaging embeddings across exemplars amplifies alignment rather than blurring detail. Together, our results demonstrate that unimodal networks converge on a shared semantic code that aligns with human judgments and strengthens with exemplar aggregation.

Ссылки и действия