Building Tailored Speech Recognizers for Japanese Speaking Assessment

2509.20655v1 cs.CL, cs.SD, eess.AS 2025-09-27

Авторы:

Yotaro Kubo, Richard Sproat, Chihiro Taguchi, Llion Jones

Резюме на русском

#### Контекст В современной лингвистике использование систем распознавания речи приобретает важное значение, особенно при работе с языками, требующими точного определения интонационных и фонетических особенностей. Японский язык, несмотря на богатство ресурсов, представляет особые сложности в области распознавания речи из-за отсутствия достаточного количества данных для точного определения звуковых и интонационных маркеров (акцентов). Это приводит к увеличению ошибок в распознавании, особенно при использовании глобальных моделей, не учитывающих конкретные характеристики японского языка. Целью данного исследования является разработка более точных систем распознавания речи, которые могут обрабатывать задачи анализа японского произношения, включая интонации и фонетические маркеры. #### Метод Для улучшения точности распознавания речи, разработчики предложили два основных метода. Во-первых, **многозадачное обучение** (multitask learning), которое вводит дополнительные функции потерь для оценки ортографических текстовых меток и питовых паттернов входного сигнала. Это позволяет использовать данные, имеющие только ортографические метки, для обучения модели. Во-вторых, **функциональная свёртка** (fusion) двух оценщиков: один работает над алфавитной последовательностью фонемов, а другой — над последовательностью текстовых токенов. Для объединения этих оценок разработана алгоритмическая модель на основе трансдукторного правила (finite-state transducer). Эти методы стремятся улучшить точность распознавания звуков и интонаций, особенно в условиях ограниченных данных. #### Результаты Исследование проводилось на основе данных японских речевых ассесментов (CSJ core evaluation sets). Был проанализирован эффект применения многозадачного обучения и свёртки данных. Результаты показали существенное снижение ошибок распознавания звуков (mora-label error rates) — от 12.3% до 7.1%. Таким образом, многозадачное обучение и функциональная свёртка данных доказали свою эффективность в решении проблем с нехваткой данных в специализированных задачах распознавания японского произношения. #### Значимость Результаты исследования могут быть применены в различных областях, включая лингвистические задачи, автоматизацию преподавания языка, а также развитие новых технологий распознавания речи. Многозадачное обучение и функциональная свёртка данных демонстрируют свою преимущественность перед использованием общих моделей распознавания речи. Эти технологии могут стать базой для повышения точности распознавания речи, не только на японском языке, но и на других языках с

Abstract

This paper presents methods for building speech recognizers tailored for Japanese speaking assessment tasks. Specifically, we build a speech recognizer that outputs phonemic labels with accent markers. Although Japanese is resource-rich, there is only a small amount of data for training models to produce accurate phonemic transcriptions that include accent marks. We propose two methods to mitigate data sparsity. First, a multitask training scheme introduces auxiliary loss functions to estimate orthographic text labels and pitch patterns of the input signal, so that utterances with only orthographic annotations can be leveraged in training. The second fuses two estimators, one over phonetic alphabet strings, and the other over text token sequences. To combine these estimates we develop an algorithm based on the finite-state transducer framework. Our results indicate that the use of multitask learning and fusion is effective for building an accurate phonemic recognizer. We show that this approach is advantageous compared to the use of generic multilingual recognizers. The relative advantages of the proposed methods were also compared. Our proposed methods reduced the average of mora-label error rates from 12.3% to 7.1% over the CSJ core evaluation sets.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Building Tailored Speech Recognizers for Japanese Speaking Assessment

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Joint Speech and Text Training for LLM-Based End-to-End Spoken Dialogue State Tr...

Mispronunciation Detection and Diagnosis Without Model Training: A Retrieval-Bas...

Proactive Hearing Assistants that Isolate Egocentric Conversations

Hallucination Benchmark for Speech Foundation Models

MTP-S2UT: Enhancing Speech-to-Speech Translation Quality with Multi-token Predic...

Навигация