The Curious Case of Visual Grounding: Different Effects for Speech- and Text-based Language Encoders
2509.15837v1
cs.CL, I.2.7
2025-09-23
Авторы:
Adrian Sauter, Willem Zuidema, Marianne de Heer Kloots
Резюме на русском
## Контекст
На протяжении последних десяти лет технологии глубокого обучения позволили достичь значительных успехов в области естественных языков. Однако многие из этих моделей оперируют в условиях недостатка визуальной информации. Это приводит к очевидным различиям в их внутренних представлениях слов в зависимости от того, обучены ли они на текстовых или аудиоданных. Например, модели, обученные на аудиоданных, часто не включают в свои представления значительных семантических характеристик. Этот феномен может привести к проблемам в понимании речи, в частности, когда слова имеют несколько значений. Недавние исследования показали, что подача визуальных сигналов может улучшить представления моделей языка. Однако не ясно, какие изменения происходят внутри моделей в зависимости от того, используется ли текстовый или аудиоinput. Эта работа будет исследовать эти эффекты, а также помочь выявить лучшие практики для интеграции визуальной информации в модели глубокого обучения.
## Метод
Чтобы изучить влияние визуальной информации на языковые модели, мы использовали две различные модели: Speech-based Language Encoder (SLE) и Text-based Language Encoder (TLE). Для обучения этих моделей были использованы данные из двух источников: аудиозаписи речи и текстовые корпусы. В работе применялась множественная эмпирическая оценка, включающая сравнение глобальных представлений, а также локальные анализы фонетической и семантической дискриминабильности. Для анализа фонетической дискриминабильности использовались методы кластеризации, которые разделяли слова на группы на основе звуковых символов. Для семантической дискриминабильности — методы, оценивающие схожесть значений слов.
## Результаты
Наши результаты показали, что включение визуальной информации в обучение приводит к значительному улучшению взаимосвязи между представлениями речи и письма. Однако этот эффект был сильнее заметен в TLE, чем в SLE. Эксперименты по фонетической дискриминабильности показали, что SLE по-прежнему остается нацеленным на звуковые черты, даже при включении визуальных сигналов. Это отличается от TLE, где визуальная информация улучшила семантическую дискриминабильность. Эти результаты указывают на различия в как обработке, так и в интеграции визуальной информации в эти двух типов моделей.
## Значимость
Эти находки имеют практическое значение для развития моделей, которые могут эффективно обрабатывать как речь, так и письменный текст. Такие модели могут быть полезны в областях, где нужно понимать и интепретировать речевые и текстовые данные о
Abstract
How does visual information included in training affect language processing
in audio- and text-based deep learning models? We explore how such visual
grounding affects model-internal representations of words, and find
substantially different effects in speech- vs. text-based language encoders.
Firstly, global representational comparisons reveal that visual grounding
increases alignment between representations of spoken and written language, but
this effect seems mainly driven by enhanced encoding of word identity rather
than meaning. We then apply targeted clustering analyses to probe for phonetic
vs. semantic discriminability in model representations. Speech-based
representations remain phonetically dominated with visual grounding, but in
contrast to text-based representations, visual grounding does not improve
semantic discriminability. Our findings could usefully inform the development
of more efficient methods to enrich speech-based models with visually-informed
semantics.
Ссылки и действия
Дополнительные ресурсы: