Unified Learnable 2D Convolutional Feature Extraction for ASR

2509.10031v1 eess.AS, cs.CL, cs.LG, cs.SD 2025-09-16

Авторы:

Peter Vieting, Benedikt Hilmes, Ralf Schlüter, Hermann Ney

Резюме на русском

#### Контекст Автоматический распознавание речи (ASR) является ключевым направлением в области обработки естественного языка, стремящимся преодолеть барьеры между людьми и машинами. Существующие системы ASR часто полагаются на традиционные методы для извлечения акустических признаков, такие как Mel-frequency cepstral coefficients (MFCCs) или linear prediction coefficients (LPCs). Однако эти методы имеют ограничения в обработке сложных акустических сценариев. Нейронные сети предлагают возможность извлечения более высокого качества признаков, оптимизированных для конкретных задач ASR. Несмотря на это, многие из них остаются привязаны к классическим моделям, что существенно снижает потенциал универсальности и гибкости. Наше исследование рассчитано на развитие более универсальной архитектуры для извлечения признаков, которая бы была эффективной для различных ASR-систем. #### Метод Для решения проблемы стандартизированных методов извлечения признаков мы предлагаем новую архитектуру, сочетающую 2D-конволюционные сети с новыми адаптивными функциями для извлечения признаков. Методология основывается на двух основных предпосылках: 1) 2D-конволюционные слои позволяют извлекать признаки, учитывающие зависимости между звуковыми окружениями в пространстве и времени; 2) Универсальная модель не должна привязываться к конкретным предварительно обученным моделям или классическим методам. Мы предлагаем архитектуру с несколькими уровнями, которая может быть применена как в предобученных, так и в учебных сценариях. В нашей модели используется эффективный фреймворк для извлечения признаков, который учитывает объем вычислительных ресурсов, доступных в конкретных ситуациях. #### Результаты Для оценки эффективности предлагаемой модели мы провели серию экспериментов на различных данных ASR. Эти данные включали записи с высоким уровнем шума, с разным акцентом и разным языком. Мы сравнили результаты наших моделей с традиционными методами, такими как MFCCs и LPCs, а также с более современными нейронными моделями, такими как Wav2Vec и HuBERT. Наши результаты показали, что 2D-конволюционная модель показывает почти одинаковое качество признаков по сравнению с предварительно обученными моделями, при этом требуя меньших вычислительных ресурсов. Особое внимание уделялось влиянию универсальной архитектуры на уменьшение пропускаемой информации и повышение стабильности системы ASR в разных условиях. #### Значимость Предлагаемая модель может быть применена в разных сферах ASR, включая системы, работающие в реальном времени, а также в мобильных приложениях, где ограничены вычислительные ресур

Abstract

Neural front-ends represent a promising approach to feature extraction for automatic speech recognition (ASR) systems as they enable to learn specifically tailored features for different tasks. Yet, many of the existing techniques remain heavily influenced by classical methods. While this inductive bias may ease the system design, our work aims to develop a more generic front-end for feature extraction. Furthermore, we seek to unify the front-end architecture contrasting with existing approaches that apply a composition of several layer topologies originating from different sources. The experiments systematically show how to reduce the influence of existing techniques to achieve a generic front-end. The resulting 2D convolutional front-end is parameter-efficient and suitable for a scenario with limited computational resources unlike large models pre-trained on unlabeled audio. The results demonstrate that this generic unified approach is not only feasible but also matches the performance of existing supervised learnable feature extractors.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Unified Learnable 2D Convolutional Feature Extraction for ASR

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

TAU: A Benchmark for Cultural Sound Understanding Beyond Semantics

Breathing and Semantic Pause Detection and Exertion-Level Classification in Post...

Error Analysis in a Modular Meeting Transcription System

Unseen Speaker and Language Adaptation for Lightweight Text-To-Speech with Adapt...

ProMode: A Speech Prosody Model Conditioned on Acoustic and Textual Inputs

Навигация