ArabEmoNet: A Lightweight Hybrid 2D CNN-BiLSTM Model with Attention for Robust Arabic Speech Emotion Recognition

2509.01401v1 cs.SD, cs.CL, eess.AS 2025-09-05

Авторы:

Ali Abouzeid, Bilal Elbouardi, Mohamed Maged, Shady Shehata

Резюме на русском

#### Контекст Говорящее чувство — важное аспект улучшения интерактивности между человеком и компьютером, особенно для низкоресурсных языков, таких как арабский. Однако работа по этой теме сталкивается с проблемами, такими как нехватка данных и ограниченные исследования. Настоящая работа предлагает ArabEmoNet, модель, которая решает эти проблемы и показывает выдающиеся результаты. Отличается лишь тем, что в настоящем подходе используются Mel-спектрограммы с 2D-конволюциями, что позволяет сохранить ключевые эмоциональные признаки, которые могут быть потеряны в традиционных аппаратах. #### Метод ArabEmoNet является легковесной архитектурой, которая сочетает 2D-конволюционную сеть с BiLSTM и пристальным вниманием. Модель обрабатывает Mel-спектрограммы, что позволяет локализовать критические эмоциональные признаки. Модель имеет 1 миллион параметров, что делает ее применимой для ресурсами, ограниченных по доступу. Эта гибкость делает ее идеальной для реалий. #### Результаты Проведенные эксперименты показали, что ArabEmoNet показывает выдающиеся результаты в рамках задачи распознавания эмоций в речи на арабском языке. Модель обладает тем, что выдает лучший результат с меньшим числом параметров. Это делает ее эффективной и масштабируемой для применения в реальных условиях. #### Значимость ArabEmoNet может применяться в различных сферах, таких как социальные сети, компьютерные игры, искусственный интеллект, и т. д. Модель обладает высокой точностью и низким потреблением ресурсов, что делает ее привлекательной для реальных приложений. #### Выводы Результаты показывают, что ArabEmoNet является эффективным решением для распознавания эмоций на арабском языке. Она открывает пути для будущих исследований в области распознавания эмоций в речи, особенно для низкоресурсных языков.

Abstract

Speech emotion recognition is vital for human-computer interaction, particularly for low-resource languages like Arabic, which face challenges due to limited data and research. We introduce ArabEmoNet, a lightweight architecture designed to overcome these limitations and deliver state-of-the-art performance. Unlike previous systems relying on discrete MFCC features and 1D convolutions, which miss nuanced spectro-temporal patterns, ArabEmoNet uses Mel spectrograms processed through 2D convolutions, preserving critical emotional cues often lost in traditional methods. While recent models favor large-scale architectures with millions of parameters, ArabEmoNet achieves superior results with just 1 million parameters, 90 times smaller than HuBERT base and 74 times smaller than Whisper. This efficiency makes it ideal for resource-constrained environments. ArabEmoNet advances Arabic speech emotion recognition, offering exceptional performance and accessibility for real-world applications.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

ArabEmoNet: A Lightweight Hybrid 2D CNN-BiLSTM Model with Attention for Robust Arabic Speech Emotion Recognition

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

SP-MCQA: Evaluating Intelligibility of TTS Beyond the Word Level

emg2speech: synthesizing speech from electromyography using self-supervised spee...

STAR-Bench: Probing Deep Spatio-Temporal Reasoning as Audio 4D Intelligence

ISA-Bench: Benchmarking Instruction Sensitivity for Large Audio Language Models

XLSR-Kanformer: A KAN-Intergrated model for Synthetic Speech Detection

Навигация