Seeing Through Words, Speaking Through Pixels: Deep Representational Alignment Between Vision and Language Models
2509.20751v1
cs.CV, cs.AI, cs.CL
2025-09-26
Авторы:
Zoe Wanying He, Sean Trott, Meenakshi Khosla
Резюме на русском
## Контекст
В последние годы появились многочисленные модели основанные на глубоком обучении, которые уделяют особое внимание взаимодействию между визуальными и языковыми моделями. Эти модели обучаются на отдельных модальностях — визуальных и языковых данных — но при этом удается добиться какого-то уровня взаимодействия и схожести между ними. Однако существуют многочисленные вопросы, на которые пока что ответа не найдено. Например, где в сети возникает этот аллегонимный проект (представление в параллельном пространстве)? Какие конкретно визуальные или лингвистические признаки способствуют этому? Отвечает ли этот проект семантическим приоритетам человеческого восприятия? И как многообразие образов и текстов влияет на этот проект? Исследование этих вопросов может помочь лучше понять, насколько модели видения и языка совместимы с человеческим пониманием и как можно использовать это понимание в различных приложениях.
## Метод
Для исследования взаимодействия визуальных и языковых моделей в этой работе предложена систематическая методология. В центре исследования — сравнение возможностей проекции визуальных и языковых моделей в общую плоскость представлений. Используются модели с разным уровнем сложности и различными архитектурами, включая топовые решения в области визуального и языкового понимания. Особое внимание уделяется сравнению результатов обработки различных визуальных и текстовых примеров, чтобы выявить, какие признаки влияют на уровень взаимодействия. Также проводились эксперименты с многообразием образов и текстов для оценки способности моделей распознавать гармонию между изображениями и текстами, а также для исследования влияния объема данных на уровень взаимодействия.
## Результаты
Эксперименты показали, что взаимодействие между визуальными и языковыми моделями возникает в средних и поздних слоях моделей. Это отражает переход от модально-конкретных представлений к семантически общим. Этот проект оказывается устойчивым к изменениям внешних признаков (например, изменения внешнего вида объектов), но ломается при изменении семантических признаков (например, исключении объектов или изменении порядка слов в тексте). Был проведен эксперимент с задачей "Pick-a-Pic", где люди выбирали наиболее подходящие изображения под текстовые описания. Результаты показали, что модели способны согласовывать свои представления с человеческими взглядами, даже в ситуациях, когда есть много вариантов текстов для одного изображения. Особое внимание уделено роли среднего слоя в моделях: он позволяет моделям "понимать" изображение и текст одно
Abstract
Recent studies show that deep vision-only and language-only models--trained
on disjoint modalities--nonetheless project their inputs into a partially
aligned representational space. Yet we still lack a clear picture of where in
each network this convergence emerges, what visual or linguistic cues support
it, whether it captures human preferences in many-to-many image-text scenarios,
and how aggregating exemplars of the same concept affects alignment. Here, we
systematically investigate these questions. We find that alignment peaks in
mid-to-late layers of both model types, reflecting a shift from
modality-specific to conceptually shared representations. This alignment is
robust to appearance-only changes but collapses when semantics are altered
(e.g., object removal or word-order scrambling), highlighting that the shared
code is truly semantic. Moving beyond the one-to-one image-caption paradigm, a
forced-choice "Pick-a-Pic" task shows that human preferences for image-caption
matches are mirrored in the embedding spaces across all vision-language model
pairs. This pattern holds bidirectionally when multiple captions correspond to
a single image, demonstrating that models capture fine-grained semantic
distinctions akin to human judgments. Surprisingly, averaging embeddings across
exemplars amplifies alignment rather than blurring detail. Together, our
results demonstrate that unimodal networks converge on a shared semantic code
that aligns with human judgments and strengthens with exemplar aggregation.
Ссылки и действия
Дополнительные ресурсы: