Cross-Attention is Half Explanation in Speech-to-Text Models
2509.18010v1
cs.CL, cs.AI, cs.SD
2025-09-24
Авторы:
Sara Papi, Dennis Fucci, Marco Gaido, Matteo Negri, Luisa Bentivogli
Резюме на русском
#### Контекст
Современные модели устных переводчиков, такие как speech-to-text (S2T), широко используются в различных областях, включая доступность, локализацию и улучшение интерактивных систем. Одна из ключевых компонент этих моделей — cross-attention, которая обеспечивает синхронное взаимодействие между энкодером (обработкой звука) и декодером (генерацией текста). Однако, несмотря на ее важность, остается неполностью изученным вопрос о том, насколько cross-attention может объяснить то, что происходит в модели. Эта проблема становится особенно актуальной в связи с популярностью использования cross-attention в методах feature attribution для анализа и объяснения предсказаний моделей. Целью данного исследования является оценка explanatory power cross-attention в S2T моделях, опираясь на методы feature attribution, чтобы прояснить, насколько эта механика отражает входные связи и декодируемую информацию.
#### Метод
Для изучения explanatory power cross-attention в S2T моделях выполнено ряд экспериментов на нескольких моделях различных масштабов: monolingual (на одном языке) и multilingual (на нескольких языках), single-task (задачу перевода) и multi-task (несколько задач). Были использованы две группы методов для оценки explanatory power: (i) feature attribution (saliency maps), которые отображают вклад каждого входа в результат модели, и (ii) cross-attention scores, которые показывают, насколько decoder "смотрит" на каждый элемент input representation. Методом feature attribution был использован Grad-CAM, а для сравнения — стандартные метрики целесообразности, такие как Pearson correlation и MSE.
#### Результаты
Полученные результаты показали, что cross-attention scores в S2T моделях слабо до действительно сильно подходят к saliency-based explanations, в зависимости от конкретной модели и задачи. В случае многозадачных моделей, cross-attention в среднем отражает 50% входного релевантности, при этом в лучшем случае достигает 75%, что говорит о существующих ложных срабатываний и несовпадении. Например, в monolingual S2T моделях лучшая модель (wav2vec 2.0) показала сильное взаимодействие с saliency, однако, в multilingual моделях его слабее. Таким образом, cross-attention можно считать прозрачным, но не полностью наглядным, для объяснения результатов S2T моделей.
#### Значимость
Эти результаты имеют большую значимость для развития моделей S2T и общего понимания взаимодействия в архитектурах encoder-decoder. Cross-attention может быть полезной тем, чтобы объяснить какие элементы входного звука воспринимаются моделью, но это не полное и недостаточно наглядное объяснение. Это имеет практический импакт в областях, где требуется наглядность и предсказуемость результатов — например, в локализации, где нужно понять, как аудио преобразуется в текст. Также, частичная значимость cross-attention открывает пути для развития более сложных и наглядных мето
Abstract
Cross-attention is a core mechanism in encoder-decoder architectures,
widespread in many fields, including speech-to-text (S2T) processing. Its
scores have been repurposed for various downstream applications--such as
timestamp estimation and audio-text alignment--under the assumption that they
reflect the dependencies between input speech representation and the generated
text. While the explanatory nature of attention mechanisms has been widely
debated in the broader NLP literature, this assumption remains largely
unexplored within the speech domain. To address this gap, we assess the
explanatory power of cross-attention in S2T models by comparing its scores to
input saliency maps derived from feature attribution. Our analysis spans
monolingual and multilingual, single-task and multi-task models at multiple
scales, and shows that attention scores moderately to strongly align with
saliency-based explanations, particularly when aggregated across heads and
layers. However, it also shows that cross-attention captures only about 50% of
the input relevance and, in the best case, only partially reflects how the
decoder attends to the encoder's representations--accounting for just 52-75% of
the saliency. These findings uncover fundamental limitations in interpreting
cross-attention as an explanatory proxy, suggesting that it offers an
informative yet incomplete view of the factors driving predictions in S2T
models.
Ссылки и действия
Дополнительные ресурсы: