The Curious Case of Visual Grounding: Different Effects for Speech- and Text-based Language Encoders

2509.15837v1 cs.CL, I.2.7 2025-09-23

Авторы:

Adrian Sauter, Willem Zuidema, Marianne de Heer Kloots

Резюме на русском

## Контекст На протяжении последних десяти лет технологии глубокого обучения позволили достичь значительных успехов в области естественных языков. Однако многие из этих моделей оперируют в условиях недостатка визуальной информации. Это приводит к очевидным различиям в их внутренних представлениях слов в зависимости от того, обучены ли они на текстовых или аудиоданных. Например, модели, обученные на аудиоданных, часто не включают в свои представления значительных семантических характеристик. Этот феномен может привести к проблемам в понимании речи, в частности, когда слова имеют несколько значений. Недавние исследования показали, что подача визуальных сигналов может улучшить представления моделей языка. Однако не ясно, какие изменения происходят внутри моделей в зависимости от того, используется ли текстовый или аудиоinput. Эта работа будет исследовать эти эффекты, а также помочь выявить лучшие практики для интеграции визуальной информации в модели глубокого обучения. ## Метод Чтобы изучить влияние визуальной информации на языковые модели, мы использовали две различные модели: Speech-based Language Encoder (SLE) и Text-based Language Encoder (TLE). Для обучения этих моделей были использованы данные из двух источников: аудиозаписи речи и текстовые корпусы. В работе применялась множественная эмпирическая оценка, включающая сравнение глобальных представлений, а также локальные анализы фонетической и семантической дискриминабильности. Для анализа фонетической дискриминабильности использовались методы кластеризации, которые разделяли слова на группы на основе звуковых символов. Для семантической дискриминабильности — методы, оценивающие схожесть значений слов. ## Результаты Наши результаты показали, что включение визуальной информации в обучение приводит к значительному улучшению взаимосвязи между представлениями речи и письма. Однако этот эффект был сильнее заметен в TLE, чем в SLE. Эксперименты по фонетической дискриминабильности показали, что SLE по-прежнему остается нацеленным на звуковые черты, даже при включении визуальных сигналов. Это отличается от TLE, где визуальная информация улучшила семантическую дискриминабильность. Эти результаты указывают на различия в как обработке, так и в интеграции визуальной информации в эти двух типов моделей. ## Значимость Эти находки имеют практическое значение для развития моделей, которые могут эффективно обрабатывать как речь, так и письменный текст. Такие модели могут быть полезны в областях, где нужно понимать и интепретировать речевые и текстовые данные о

Abstract

How does visual information included in training affect language processing in audio- and text-based deep learning models? We explore how such visual grounding affects model-internal representations of words, and find substantially different effects in speech- vs. text-based language encoders. Firstly, global representational comparisons reveal that visual grounding increases alignment between representations of spoken and written language, but this effect seems mainly driven by enhanced encoding of word identity rather than meaning. We then apply targeted clustering analyses to probe for phonetic vs. semantic discriminability in model representations. Speech-based representations remain phonetically dominated with visual grounding, but in contrast to text-based representations, visual grounding does not improve semantic discriminability. Our findings could usefully inform the development of more efficient methods to enrich speech-based models with visually-informed semantics.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

The Curious Case of Visual Grounding: Different Effects for Speech- and Text-based Language Encoders

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Efficient Reasoning via Thought-Training and Thought-Free Inference

BIRD: Bronze Inscription Restoration and Dating

HACK: Hallucinations Along Certainty and Knowledge Axes

Decoding-Free Sampling Strategies for LLM Marginalization

Adapting Multilingual Models to Code-Mixed Tasks via Model Merging

Навигация