Behind the Scenes: Mechanistic Interpretability of LoRA-adapted Whisper for Speech Emotion Recognition

2509.08454v2 cs.SD, cs.LG, eess.AS 2025-09-12

Авторы:

Yujian Ma, Jinqiu Sang, Ruizhe Li

Резюме на русском

## Контекст В статье рассматривается проблема эффективного адаптирования больших предобученных спич-моделей, таких как Whisper, к задачам распознавания эмоций в речи (Speech Emotion Recognition, SER). Эти модели хорошо справляются с задачами общего распознавания речи, но их применение к специфическим задачам, таким как распознавание эмоций, требует значительных ресурсов. Одним из популярных подходов является Low-Rank Adaptation (LoRA), который позволяет эффективно адаптировать модели к конкретным задачам с минимальным увеличением числа параметров. Несмотря на эффективность LoRA, его механизм работы в контексте спич-моделей, особенно при распознавании эмоций, до сих пор остается малоизученным. Целью данной работы является осуществление первого систематического исследования механизмов работы LoRA в контексте Whisper для задачи SER. ## Метод В ходе исследования применяются следующие методики: 1. **Layer Contribution Probing**: Определяется вклад каждого слоя енкодера Whisper в задачу распознавания эмоций в речи. 2. **Logit-Lens Inspection**: Анализируется динамика представлений на выходе слоев модели, чтобы понять, как LoRA влияет на классификацию эмоций. 3. **Representational Similarity Analysis**: Вычисляются меры схожести представлений (singular value decomposition, SVD, и centered kernel alignment, CKA) для определения изменений в представлениях речи в разных слоях. 4. **Analytical Tools**: Для объяснения механизмов работы LoRA используются эти методы для проведения систематического анализа. Эти методы позволяют получить подробный обзор того, как LoRA влияет на работу модели Whisper в задаче распознавания эмоций в речи. ## Результаты В ходе экспериментов были выявлены два ключевых механизма работы LoRA в контексте Whisper для задачи SER: 1. **Delayed Specialization**: В early layers енкодера сохраняются общие фичи речи, тогда как в поздних слоях происходит специализация на конкретную задачу распознавания эмоций. 2. **Forward Alignment, Backward Differentiation**: Динамика между матрицами LoRA, где forward alignment обеспечивает выравнивание представлений, а backward differentiation позволяет избавиться от ненужных фичей. Эти находки демонстрируют, как LoRA меняет иерархию енкодера, улучшая его эффективность в задаче SER. На основе этих результатов были получены новые подходы к параметрно-эффективной адаптации моделей. ## Значимость Результаты имеют значительное значение для следующих областей: 1. **Применение в распознавании эмоций в речи**: Объясняются механизмы, позволяющие LoRA эффективно адаптировать модели к этой задаче, что может улучшить понимание интеллектуальных систем, работающих с естественным языком. 2. **Efficiency in Adaptation**: Демонстрируется, как LoRA может эффективно использоваться для параметрно-эффективной адаптации больших моделей к конкретным

Abstract

Large pre-trained speech models such as Whisper offer strong generalization but pose significant challenges for resource-efficient adaptation. Low-Rank Adaptation (LoRA) has become a popular parameter-efficient fine-tuning method, yet its underlying mechanisms in speech tasks remain poorly understood. In this work, we conduct the first systematic mechanistic interpretability study of LoRA within the Whisper encoder for speech emotion recognition (SER). Using a suite of analytical tools, including layer contribution probing, logit-lens inspection, and representational similarity via singular value decomposition (SVD) and centered kernel alignment (CKA), we reveal two key mechanisms: a delayed specialization process that preserves general features in early layers before consolidating task-specific information, and a forward alignment, backward differentiation dynamic between LoRA's matrices. Our findings clarify how LoRA reshapes encoder hierarchies, providing both empirical insights and a deeper mechanistic understanding for designing efficient and interpretable adaptation strategies in large speech models. Our code is available at https://github.com/harryporry77/Behind-the-Scenes.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Behind the Scenes: Mechanistic Interpretability of LoRA-adapted Whisper for Speech Emotion Recognition

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Fine-tuning Pre-trained Audio Models for COVID-19 Detection: A Technical Report

Transformer Redesign for Late Fusion of Audio-Text Features on Ultra-Low-Power E...

ProGress: Structured Music Generation via Graph Diffusion and Hierarchical Music...

BACHI: Boundary-Aware Symbolic Chord Recognition Through Masked Iterative Decodi...

Transcribing Rhythmic Patterns of the Guitar Track in Polyphonic Music

Навигация