ArabEmoNet: A Lightweight Hybrid 2D CNN-BiLSTM Model with Attention for Robust Arabic Speech Emotion Recognition
2509.01401v1
cs.SD, cs.CL, eess.AS
2025-09-05
Авторы:
Ali Abouzeid, Bilal Elbouardi, Mohamed Maged, Shady Shehata
Резюме на русском
#### Контекст
Говорящее чувство — важное аспект улучшения интерактивности между человеком и компьютером, особенно для низкоресурсных языков, таких как арабский. Однако работа по этой теме сталкивается с проблемами, такими как нехватка данных и ограниченные исследования. Настоящая работа предлагает ArabEmoNet, модель, которая решает эти проблемы и показывает выдающиеся результаты. Отличается лишь тем, что в настоящем подходе используются Mel-спектрограммы с 2D-конволюциями, что позволяет сохранить ключевые эмоциональные признаки, которые могут быть потеряны в традиционных аппаратах.
#### Метод
ArabEmoNet является легковесной архитектурой, которая сочетает 2D-конволюционную сеть с BiLSTM и пристальным вниманием. Модель обрабатывает Mel-спектрограммы, что позволяет локализовать критические эмоциональные признаки. Модель имеет 1 миллион параметров, что делает ее применимой для ресурсами, ограниченных по доступу. Эта гибкость делает ее идеальной для реалий.
#### Результаты
Проведенные эксперименты показали, что ArabEmoNet показывает выдающиеся результаты в рамках задачи распознавания эмоций в речи на арабском языке. Модель обладает тем, что выдает лучший результат с меньшим числом параметров. Это делает ее эффективной и масштабируемой для применения в реальных условиях.
#### Значимость
ArabEmoNet может применяться в различных сферах, таких как социальные сети, компьютерные игры, искусственный интеллект, и т. д. Модель обладает высокой точностью и низким потреблением ресурсов, что делает ее привлекательной для реальных приложений.
#### Выводы
Результаты показывают, что ArabEmoNet является эффективным решением для распознавания эмоций на арабском языке. Она открывает пути для будущих исследований в области распознавания эмоций в речи, особенно для низкоресурсных языков.
Abstract
Speech emotion recognition is vital for human-computer interaction,
particularly for low-resource languages like Arabic, which face challenges due
to limited data and research. We introduce ArabEmoNet, a lightweight
architecture designed to overcome these limitations and deliver
state-of-the-art performance. Unlike previous systems relying on discrete MFCC
features and 1D convolutions, which miss nuanced spectro-temporal patterns,
ArabEmoNet uses Mel spectrograms processed through 2D convolutions, preserving
critical emotional cues often lost in traditional methods.
While recent models favor large-scale architectures with millions of
parameters, ArabEmoNet achieves superior results with just 1 million
parameters, 90 times smaller than HuBERT base and 74 times smaller than
Whisper. This efficiency makes it ideal for resource-constrained environments.
ArabEmoNet advances Arabic speech emotion recognition, offering exceptional
performance and accessibility for real-world applications.
Ссылки и действия
Дополнительные ресурсы: