#### Контекст
Автоматический распознавание речи (ASR) является ключевым направлением в области обработки естественного языка, стремящимся преодолеть барьеры между людьми и машинами. Существующие системы ASR часто полагаются на традиционные методы для извлечения акустических признаков, такие как Mel-frequency cepstral coefficients (MFCCs) или linear prediction coefficients (LPCs). Однако эти методы имеют ограничения в обработке сложных акустических сценариев. Нейронные сети предлагают возможность извлечения более высокого качества признаков, оптимизированных для конкретных задач ASR. Несмотря на это, многие из них остаются привязаны к классическим моделям, что существенно снижает потенциал универсальности и гибкости. Наше исследование рассчитано на развитие более универсальной архитектуры для извлечения признаков, которая бы была эффективной для различных ASR-систем.
#### Метод
Для решения проблемы стандартизированных методов извлечения признаков мы предлагаем новую архитектуру, сочетающую 2D-конволюционные сети с новыми адаптивными функциями для извлечения признаков. Методология основывается на двух основных предпосылках: 1) 2D-конволюционные слои позволяют извлекать признаки, учитывающие зависимости между звуковыми окружениями в пространстве и времени; 2) Универсальная модель не должна привязываться к конкретным предварительно обученным моделям или классическим методам. Мы предлагаем архитектуру с несколькими уровнями, которая может быть применена как в предобученных, так и в учебных сценариях. В нашей модели используется эффективный фреймворк для извлечения признаков, который учитывает объем вычислительных ресурсов, доступных в конкретных ситуациях.
#### Результаты
Для оценки эффективности предлагаемой модели мы провели серию экспериментов на различных данных ASR. Эти данные включали записи с высоким уровнем шума, с разным акцентом и разным языком. Мы сравнили результаты наших моделей с традиционными методами, такими как MFCCs и LPCs, а также с более современными нейронными моделями, такими как Wav2Vec и HuBERT. Наши результаты показали, что 2D-конволюционная модель показывает почти одинаковое качество признаков по сравнению с предварительно обученными моделями, при этом требуя меньших вычислительных ресурсов. Особое внимание уделялось влиянию универсальной архитектуры на уменьшение пропускаемой информации и повышение стабильности системы ASR в разных условиях.
#### Значимость
Предлагаемая модель может быть применена в разных сферах ASR, включая системы, работающие в реальном времени, а также в мобильных приложениях, где ограничены вычислительные ресур