Optimizing Neural Architectures for Hindi Speech Separation and Enhancement in Noisy Environments

2508.12009v1 cs.SD, cs.LG 2025-08-19

Авторы:

Arnav Ramamoorthy

Резюме на русском

## Контекст В современных условиях, где звукозаписи часто подвергаются помехам и шумам, необходимо развивать методы улучшения и разделения говорения. Эта проблема актуальна не только для работы с английским, но и с другими языками, включая хинди. Хинди является широко распространенным языком, особенно в Индии, где шумы окружающей среды сильно влияют на качество звукозаписи. Существующие методы разделения и улучшения говорения часто неэффективны, так как не приспособлены к специфике хинди и окружающих условий. Мотивацией для этого исследования является необходимость создания более точных и эффективных алгоритмов, которые могут оптимально работать в реальных условиях с шумом. ## Метод Данная работа основывается на рефинированном подходе к модели DEMUCS, которая использует U-Net и LSTM-слои для более тонкого улучшения говорения. Модель была настроена на датасет, состоящий из 400,000 звуковых сэмплов, включая хинди, английский и различные акустические условия. Для увеличения разнообразия данных были включены данные из наборов ESC-50 и MS-SNSD. Для оценки результатов использовались метрики PESQ и STOI, которые позволяют измерить качество разделения и улучшения говорения. Также, для применения на ресурс-констрейнтных устройствах, таких как TWS-бюдзы, рассматривались техники quantization, которые позволяют сократить нагрузку на процессор. ## Результаты Эксперименты показали, что предложенный подход значительно улучшает качество разделения и улучшения говорения в шумных условиях. Метрики PESQ и STOI показали высокую эффективность модели в сравнении с другими методами. Изученные результаты показали, что модель DEMUCS, усовершенствованная с помощью U-Net и LSTM, способна обеспечить лучшую интеллектуальность и четкость говорения, даже при высоких уровнях шума. Также, quantization-техники позволили снизить нагрузку на процессор, чтобы модель могла работать на бюджетных устройствах. ## Значимость Предложенные технологии могут быть применены в различных сферах, включая звукозапись, перевод, аудио-контент и умные гаджеты. Они предоставляют выгоду в улучшении качества говорения в шумных условиях, что существенно повышает комфорт пользователей. Благодаря quantization-техникам, модель может быть применена на бюджетных устройствах, что делает её более доступной для широкой аудитории. Это исследование также открывает возможности для дальнейшего исследования создания более эффективных алгоритмов для работы на edge-устройствах. ## Выводы Исследование показало, что модифицированная DEMUCS-модель, в сочетании с U-Net и LSTM, эффе

Abstract

This paper addresses the challenges of Hindi speech separation and enhancement using advanced neural network architectures, with a focus on edge devices. We propose a refined approach leveraging the DEMUCS model to overcome limitations of traditional methods, achieving substantial improvements in speech clarity and intelligibility. The model is fine-tuned with U-Net and LSTM layers, trained on a dataset of 400,000 Hindi speech clips augmented with ESC-50 and MS-SNSD for diverse acoustic environments. Evaluation using PESQ and STOI metrics shows superior performance, particularly under extreme noise conditions. To ensure deployment on resource-constrained devices like TWS earbuds, we explore quantization techniques to reduce computational requirements. This research highlights the effectiveness of customized AI algorithms for speech processing in Indian contexts and suggests future directions for optimizing edge-based architectures.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Optimizing Neural Architectures for Hindi Speech Separation and Enhancement in Noisy Environments

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Contract-Driven QoE Auditing for Speech and Singing Services: From MOS Regressio...

Generative Multi-modal Feedback for Singing Voice Synthesis Evaluation

Differentiable Attenuation Filters for Feedback Delay Networks

DHAuDS: A Dynamic and Heterogeneous Audio Benchmark for Test-Time Adaptation

Count The Notes: Histogram-Based Supervision for Automatic Music Transcription

Навигация