Beyond Transcription: Mechanistic Interpretability in ASR

2508.15882v1 cs.SD, cs.CL, cs.LG, eess.AS 2025-08-25

Авторы:

Neta Glazer, Yael Segal-Feldman, Hilit Segev, Aviv Shamsian, Asaf Buchnick, Gill Hetz, Ethan Fetaya, Joseph Keshet, Aviv Navon

Резюме на русском

## Контекст Интерпретируемость моделей — ключевая задача в современной аналитике и моделировании языка. Несмотря на значительные улучшения моделей естественного языка в последние годы, развитие инструментов для понимания их внутренних механизмов остается недостаточным, особенно в случае автоматического распознавания речи (ASR). Хотя ASR получил широкое применение в различных сферах, включая электронные носители, здравоохранение и юридическую сферу, проблемы в интерпретируемости моделей и динамике слоёв внутри них остаются открытыми. Эти проблемы влияют на надежность систем, разделение синонимов, недооценку значимости слов и другие ошибки. В этой работе мы применяем интерпретируемые методы, которые ранее применялись к текстовым моделям, к ASR с целью раскрыть его недооцененный потенциал для повышения прозрачности и надёжности. ## Метод Мы применяем методы интерпретируемости, которые ранее использовались для расследования внутренних механизмов текстовых моделей, к асеру. Методы включают **logit lens** (обнаружение влияния входных данных на выходные), **linear probing** (тестирование значимости извлечённых признаков) и **activation patching** (исследование как динамики слоёв, так и связи слоёв). Эти методы применяются к различным слоям модели ASR, чтобы увидеть, как звуковые и семантические информации преобразуются в процессе распознавания. Особое внимание уделяется изучению поведения модели в случае ошибок, таких как повторения и семантические биазы. ## Результаты Исследования показали, что ASR модели используют различные слои для захвата акцента, интонаций и других акустических черт, а также для классификации слов. Мы обнаружили, что некоторые слои более чувствительны к ошибкам, таким как повторения и несоответствия семантики. Например, на третьем слое модели, мы обнаружили, что она более напрямую влияет на повторение слов, чем на другие ошибки. Была также выявлена связь между слоями и семантическим биазом, который может отражаться в системе при распознавании звука. ## Значимость Результаты этой работы могут направить исследователей на поиск новых способов улучшения моделей ASR, особенно в сферах, где языковая интерпретируемость и надёжность критичны. Например, в здравоохранении, где любая неточность может привести к нарушению безопасности, или в юридических системах, где точность распознавания речи является критически важной. Благодаря расширению инструментов интерпретируемости, модели ASR могут стать более прозрачными и надежными, что приведёт к улучшению их применения в реальном мире. ## Выводы В данной работе мы доказали, что и

Abstract

Interpretability methods have recently gained significant attention, particularly in the context of large language models, enabling insights into linguistic representations, error detection, and model behaviors such as hallucinations and repetitions. However, these techniques remain underexplored in automatic speech recognition (ASR), despite their potential to advance both the performance and interpretability of ASR systems. In this work, we adapt and systematically apply established interpretability methods such as logit lens, linear probing, and activation patching, to examine how acoustic and semantic information evolves across layers in ASR systems. Our experiments reveal previously unknown internal dynamics, including specific encoder-decoder interactions responsible for repetition hallucinations and semantic biases encoded deep within acoustic representations. These insights demonstrate the benefits of extending and applying interpretability techniques to speech recognition, opening promising directions for future research on improving model transparency and robustness.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Beyond Transcription: Mechanistic Interpretability in ASR

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Exploring Fine-Tuning of Large Audio Language Models for Spoken Language Underst...

OLMoASR: Open Models and Data for Training Robust Speech Recognition Models

Навигация