Comparison of End-to-end Speech Assessment Models for the NOCASA 2025 Challenge

2509.03256v1 cs.CL, cs.SD, eess.AS 2025-09-05

Авторы:

Aleksei Žavoronkov, Tanel Alumäe

Резюме на русском

#### Контекст Глобальный рынок технологий обработки речи постоянно растет, становится важной частью современной цифровой экономики. Одной из актуальных задач в этой области является автоматическая оценка произношения речи, особенно в контексте обучения второго языка. Дети, изучающие норвежский язык как второй, часто сталкиваются с проблемами синтаксической и фонетической адекватности. Недостаток систем автоматической оценки произношения, которые могли бы оперативно и точно давать обратную связь, приводит к затруднениям в учениках. Наша мотивация заключается в разработке моделей, которые могли бы оптимизировать процесс обучения норвежскому языку и сделать его более эффективным. #### Метод Для решения этой проблемы были разработаны три различных модели. **E2E-R** — это модель, основанная на архитектуре Siamese с участием энкодера-декодера. **Prefix-tuned direct classification model** — использует префиксное обучение с предварительно обученными представлениями wav2vec2.0. И, наконец, **GOP-CTC-based model** — новая модель, которая использует знания о хорошем произношении (GOP), вычисленные с помощью CTC (Connectionist Temporal Classification). Мы также представили новый весовый орденальный кросс-энтропийный потери, который оптимизирует такие показатели как unweighted average recall и mean absolute error. Модели были тренированы на значительных данных, включающих речевые высказывания детей, изучающих норвежский язык. #### Результаты Мы провели эксперименты с использованием данных NOCASA 2025 Challenge. Модель GOP-CTC-based показала самый высокий результат, существенно превосходя остальные методы и достигая топ-лидерборд-результатов. Эта модель существенно превосходит E2E-R и Prefix-tuned direct classification model по метрикам, таким как unweighted average recall и mean absolute error. Была также проведена аналитическая оценка, подтвердившая эффективность GOP-CTC-based модели в адаптации к реальным данным. #### Значимость Наши результаты имеют практическое значение в сфере обучения языкам. Модель GOP-CTC-based может быть применена в системах обучения норвежскому языку для детей, чтобы улучшить эффективность и производительность обучения. Также модель может быть использована для проверки произношения в других языках. Основные преимущества заключаются в том, что модель является простейшей, но эффективной, и может быть легко интегрирована в различные системы учебных приложений. #### Выводы Наше исследование показало, что GOP-CTC-based модель является самой эффективной для задач автоматической оценки произношения речи детей, изучающих норвежский язык. Она превосходит другие модели по ключевым метрикам и демонстрирует высокую точность в реальных данных. В будущ

Abstract

This paper presents an analysis of three end-to-end models developed for the NOCASA 2025 Challenge, aimed at automatic word-level pronunciation assessment for children learning Norwegian as a second language. Our models include an encoder-decoder Siamese architecture (E2E-R), a prefix-tuned direct classification model leveraging pretrained wav2vec2.0 representations, and a novel model integrating alignment-free goodness-of-pronunciation (GOP) features computed via CTC. We introduce a weighted ordinal cross-entropy loss tailored for optimizing metrics such as unweighted average recall and mean absolute error. Among the explored methods, our GOP-CTC-based model achieved the highest performance, substantially surpassing challenge baselines and attaining top leaderboard scores.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Comparison of End-to-end Speech Assessment Models for the NOCASA 2025 Challenge

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Joint Speech and Text Training for LLM-Based End-to-End Spoken Dialogue State Tr...

Mispronunciation Detection and Diagnosis Without Model Training: A Retrieval-Bas...

Proactive Hearing Assistants that Isolate Egocentric Conversations

Hallucination Benchmark for Speech Foundation Models

MTP-S2UT: Enhancing Speech-to-Speech Translation Quality with Multi-token Predic...

Навигация