Building Tailored Speech Recognizers for Japanese Speaking Assessment
2509.20655v1
cs.CL, cs.SD, eess.AS
2025-09-27
Авторы:
Yotaro Kubo, Richard Sproat, Chihiro Taguchi, Llion Jones
Резюме на русском
#### Контекст
В современной лингвистике использование систем распознавания речи приобретает важное значение, особенно при работе с языками, требующими точного определения интонационных и фонетических особенностей. Японский язык, несмотря на богатство ресурсов, представляет особые сложности в области распознавания речи из-за отсутствия достаточного количества данных для точного определения звуковых и интонационных маркеров (акцентов). Это приводит к увеличению ошибок в распознавании, особенно при использовании глобальных моделей, не учитывающих конкретные характеристики японского языка. Целью данного исследования является разработка более точных систем распознавания речи, которые могут обрабатывать задачи анализа японского произношения, включая интонации и фонетические маркеры.
#### Метод
Для улучшения точности распознавания речи, разработчики предложили два основных метода. Во-первых, **многозадачное обучение** (multitask learning), которое вводит дополнительные функции потерь для оценки ортографических текстовых меток и питовых паттернов входного сигнала. Это позволяет использовать данные, имеющие только ортографические метки, для обучения модели. Во-вторых, **функциональная свёртка** (fusion) двух оценщиков: один работает над алфавитной последовательностью фонемов, а другой — над последовательностью текстовых токенов. Для объединения этих оценок разработана алгоритмическая модель на основе трансдукторного правила (finite-state transducer). Эти методы стремятся улучшить точность распознавания звуков и интонаций, особенно в условиях ограниченных данных.
#### Результаты
Исследование проводилось на основе данных японских речевых ассесментов (CSJ core evaluation sets). Был проанализирован эффект применения многозадачного обучения и свёртки данных. Результаты показали существенное снижение ошибок распознавания звуков (mora-label error rates) — от 12.3% до 7.1%. Таким образом, многозадачное обучение и функциональная свёртка данных доказали свою эффективность в решении проблем с нехваткой данных в специализированных задачах распознавания японского произношения.
#### Значимость
Результаты исследования могут быть применены в различных областях, включая лингвистические задачи, автоматизацию преподавания языка, а также развитие новых технологий распознавания речи. Многозадачное обучение и функциональная свёртка данных демонстрируют свою преимущественность перед использованием общих моделей распознавания речи. Эти технологии могут стать базой для повышения точности распознавания речи, не только на японском языке, но и на других языках с
Abstract
This paper presents methods for building speech recognizers tailored for
Japanese speaking assessment tasks. Specifically, we build a speech recognizer
that outputs phonemic labels with accent markers. Although Japanese is
resource-rich, there is only a small amount of data for training models to
produce accurate phonemic transcriptions that include accent marks. We propose
two methods to mitigate data sparsity. First, a multitask training scheme
introduces auxiliary loss functions to estimate orthographic text labels and
pitch patterns of the input signal, so that utterances with only orthographic
annotations can be leveraged in training. The second fuses two estimators, one
over phonetic alphabet strings, and the other over text token sequences. To
combine these estimates we develop an algorithm based on the finite-state
transducer framework. Our results indicate that the use of multitask learning
and fusion is effective for building an accurate phonemic recognizer. We show
that this approach is advantageous compared to the use of generic multilingual
recognizers. The relative advantages of the proposed methods were also
compared. Our proposed methods reduced the average of mora-label error rates
from 12.3% to 7.1% over the CSJ core evaluation sets.
Ссылки и действия
Дополнительные ресурсы: