On the Contribution of Lexical Features to Speech Emotion Recognition
2509.05634v1
eess.AS, cs.CL, cs.SD
2025-09-10
Авторы:
David Combei
Резюме на русском
#### Контекст
Распознавание эмоций в речи (Speech Emotion Recognition, SER) является важной задачей в области звукового и текстового анализа, которая находит применение в медицине, робототехнике, телекоммуникациях и личных коммуникациях. Основной фокус в этой области, как правило, прикладывается к паралингвистическим признакам, таким как интонация, тембр и произношение. Однако меньше уделяется внимания лексическому содержанию речи, которое также может иметь значительное влияние на распознавание эмоций. Эта задача сопряжена с рядовыми вызовами, включая подготовку данных, обработку звука и эффективное использование текстовой и звуковой информации.
#### Метод
Мы предлагаем новую модель для распознавания эмоций в речи, основанную на лексических признаках, которая использует представления слов и фраз из речи. Модель основывается на трансформер-базе, включая технологии самостоятельного обучения (Self-Supervised Learning, SSL) для обработки звука и текста. Мы проводим ряд экспериментов, используя данные из набора MELD, а также сравниваем наши результаты с моделью, основанной только на акустических признаках. Также проводится анализ различных слоев трансформеров и эффекта динамического денойсинга аудио.
#### Результаты
В ходе экспериментов показано, что наша лексическая модель показывает высокую эффективность в распознавании эмоций в речи. На датасете MELD она достигла весомого F1-скора (WF1) в 51.5%, что значительно превышает результат модели, основанной только на акустичных признаках (49.3%). Мы также выявили, что самостоятельное обучение (SSL) и динамическое денойсинг речи могут значительно улучшить точность распознавания. Эти результаты показывают, что лексические признаки могут быть не менее важны, чем паралингвистические, в задаче распознавания эмоций в речи.
#### Значимость
Наши результаты открывают новые перспективы в использовании лексических признаков для распознавания эмоций в речи. Это может быть применено в медицинских приложениях для диагностики психических расстройств, в робототехнике для улучшения интерактивных ботов, и в общении для повышения качества личных коммуникаций. Также, наша модель демонстрирует преимущества самостоятельного обучения и динамической обработки звука, что может быть применено в других сложных задачах распознавания паралингвистических признаков.
#### Выводы
Мы показали, что лексические признаки могут дать конкурентные и даже выше результаты, чем акустические признаки в задаче распознавания эмоций в речи. Наши результаты открывают новые возможности для дальнейшего исследования в этой области, в том числе
Abstract
Although paralinguistic cues are often considered the primary drivers of
speech emotion recognition (SER), we investigate the role of lexical content
extracted from speech and show that it can achieve competitive and in some
cases higher performance compared to acoustic models. On the MELD dataset, our
lexical-based approach obtains a weighted F1-score (WF1) of 51.5%, compared to
49.3% for an acoustic-only pipeline with a larger parameter count. Furthermore,
we analyze different self-supervised (SSL) speech and text representations,
conduct a layer-wise study of transformer-based encoders, and evaluate the
effect of audio denoising.
Ссылки и действия
Дополнительные ресурсы: