EGGCodec: A Robust Neural Encodec Framework for EGG Reconstruction and F0 Extraction

2508.08924v1 eess.AS, cs.AI 2025-08-14

Авторы:

Rui Feng, Yuang Chen, Yu Hu, Jun Du, Jiahong Yuan

Резюме на русском

## Контекст Электроглоттография (EGG) — это метод измерения динамики затяжки и раздвижения глотки за счет получения сигнала, отражающего изменения в зоне прохода воздуха. Он широко применяется в диагностике речевых расстройств, синтезе речи и анализе вокальных характеристик. Однако EGG-сигнал часто подвержен шумам и помехам, что снижает точность выделения частоты основного тона (F0) и реконструкции сигнала. Существующие алгоритмы часто испытывают проблемы в обработке шумов и недостаточно устойчивы к изменениям условий. Мотивацией для разработки EGGCodec стала необходимость создания устойчивого алгоритма, обеспечивающего качественную реконструкцию EGG-сигнала и точное выделение F0. ## Метод EGGCodec — это современный нейронный фреймворк, основанный на кодировании-декодировании (Encode-Decode). Он включает в себя два основных компонента: многомерную функцию потерь в частотном домене и целевую функцию временного домена. Многомерная функция потерь стремится оптимизировать точность реконструкции сигнала, анализируя отношение между исходным и полученным EGG-сигналом на разных частотных уровнях. Функция временного домена улучшает общую точность и стабильность алгоритма. Отличительной чертой EGGCodec является отказ от использования GAN-дискриминатора, что упрощает процесс обучения, не приведя к существенному потере качества. Также использовались стандартные данные EGG для обучения и оценки. ## Результаты В ходе экспериментов EGGCodec был сравнен с современными методами выделения F0. Он показал значительное улучшение в точности, снизив среднюю абсолютную ошибку (MAE) с 14.14 Гц до 13.69 Гц. Также была сокращена ошибка при определении звучания (VDE) на 38.2%. Экстенсивные абляционные эксперименты подтвердили вклад каждого компонента в общую эффективность EGGCodec. На основе полученных результатов, можно сделать вывод о том, что EGGCodec является более стабильным и точным в сравнении с эталонными моделями. ## Значимость Разработанная модель обладает широкими областями применения, включая диагностику речевых расстройств, синтез речи и распознавание речи. Она превосходит существующие методы по точности и устойчивости, что делает ее привлекательной для решения задач в области акустического анализа речи. Инновационный подход, исключающий GAN-дискриминатор, сокращает сложность обучения без ущерба для качества, что делает EGGCodec более эффективным и универсальным. ## Выводы EGGCodec представляет собой прорыв в области обработки EGG-сигналов, обеспечивая высокую точность реконструкции и выделения F0. Будущие исследования будут направлены

Abstract

This letter introduces EGGCodec, a robust neural Encodec framework engineered for electroglottography (EGG) signal reconstruction and F0 extraction. We propose a multi-scale frequency-domain loss function to capture the nuanced relationship between original and reconstructed EGG signals, complemented by a time-domain correlation loss to improve generalization and accuracy. Unlike conventional Encodec models that extract F0 directly from features, EGGCodec leverages reconstructed EGG signals, which more closely correspond to F0. By removing the conventional GAN discriminator, we streamline EGGCodec's training process without compromising efficiency, incurring only negligible performance degradation. Trained on a widely used EGG-inclusive dataset, extensive evaluations demonstrate that EGGCodec outperforms state-of-the-art F0 extraction schemes, reducing mean absolute error (MAE) from 14.14 Hz to 13.69 Hz, and improving voicing decision error (VDE) by 38.2\%. Moreover, extensive ablation experiments validate the contribution of each component of EGGCodec.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

EGGCodec: A Robust Neural Encodec Framework for EGG Reconstruction and F0 Extraction

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Revisiting Audio-language Pretraining for Learning General-purpose Audio Represe...

Open Source State-Of-the-Art Solution for Romanian Speech Recognition

AURA Score: A Metric For Holistic Audio Question Answering Evaluation

MuFFIN: Multifaceted Pronunciation Feedback Model with Interactive Hierarchical ...

On Deepfake Voice Detection -- It's All in the Presentation

Навигация