On the Contribution of Lexical Features to Speech Emotion Recognition

2509.05634v1 eess.AS, cs.CL, cs.SD 2025-09-10
Авторы:

David Combei

Резюме на русском

#### Контекст Распознавание эмоций в речи (Speech Emotion Recognition, SER) является важной задачей в области звукового и текстового анализа, которая находит применение в медицине, робототехнике, телекоммуникациях и личных коммуникациях. Основной фокус в этой области, как правило, прикладывается к паралингвистическим признакам, таким как интонация, тембр и произношение. Однако меньше уделяется внимания лексическому содержанию речи, которое также может иметь значительное влияние на распознавание эмоций. Эта задача сопряжена с рядовыми вызовами, включая подготовку данных, обработку звука и эффективное использование текстовой и звуковой информации. #### Метод Мы предлагаем новую модель для распознавания эмоций в речи, основанную на лексических признаках, которая использует представления слов и фраз из речи. Модель основывается на трансформер-базе, включая технологии самостоятельного обучения (Self-Supervised Learning, SSL) для обработки звука и текста. Мы проводим ряд экспериментов, используя данные из набора MELD, а также сравниваем наши результаты с моделью, основанной только на акустических признаках. Также проводится анализ различных слоев трансформеров и эффекта динамического денойсинга аудио. #### Результаты В ходе экспериментов показано, что наша лексическая модель показывает высокую эффективность в распознавании эмоций в речи. На датасете MELD она достигла весомого F1-скора (WF1) в 51.5%, что значительно превышает результат модели, основанной только на акустичных признаках (49.3%). Мы также выявили, что самостоятельное обучение (SSL) и динамическое денойсинг речи могут значительно улучшить точность распознавания. Эти результаты показывают, что лексические признаки могут быть не менее важны, чем паралингвистические, в задаче распознавания эмоций в речи. #### Значимость Наши результаты открывают новые перспективы в использовании лексических признаков для распознавания эмоций в речи. Это может быть применено в медицинских приложениях для диагностики психических расстройств, в робототехнике для улучшения интерактивных ботов, и в общении для повышения качества личных коммуникаций. Также, наша модель демонстрирует преимущества самостоятельного обучения и динамической обработки звука, что может быть применено в других сложных задачах распознавания паралингвистических признаков. #### Выводы Мы показали, что лексические признаки могут дать конкурентные и даже выше результаты, чем акустические признаки в задаче распознавания эмоций в речи. Наши результаты открывают новые возможности для дальнейшего исследования в этой области, в том числе

Abstract

Although paralinguistic cues are often considered the primary drivers of speech emotion recognition (SER), we investigate the role of lexical content extracted from speech and show that it can achieve competitive and in some cases higher performance compared to acoustic models. On the MELD dataset, our lexical-based approach obtains a weighted F1-score (WF1) of 51.5%, compared to 49.3% for an acoustic-only pipeline with a larger parameter count. Furthermore, we analyze different self-supervised (SSL) speech and text representations, conduct a layer-wise study of transformer-based encoders, and evaluate the effect of audio denoising.

Ссылки и действия