New Insights into Optimal Alignment of Acoustic and Linguistic Representations for Knowledge Transfer in ASR
2509.05609v1
cs.CL, cs.LG
2025-09-10
Авторы:
Xugang Lu, Peng Shen, Yu Tsao, Hisashi Kawai
Резюме на русском
## Контекст
Ключевым вызовом в области звукового распознавания речи (ASR) является выравнивание акустических и лексических представлений для передачи знаний в предварительно обученных моделях. Эта проблема возникает из-за структуры и асимметрии отношений между акустическими и лексическими единицами. Например, несколько акустических фреймов могут соответствовать одному лексическому токену (многие-к-одному), тогда как определенные регионы акустических потоков могут соответствовать нескольким лексическим токенам (один-к-многим). Кроме того, акустический поток может включать нерелевантные фреймы, такие как шум или молчание, что приводит к условиям неравенства. Это вызывает сложности в создании точных и устойчивых моделей ASR. Наша мотивация заключается в развитии модели, которая эффективно справляется с этими проблемами, обеспечивая более точное выравнивание и улучшая передачу знаний в ASR.
## Метод
Мы приняли новый подход, рассматривая выравнивание и соотнесение как задачу обнаружения, где целью является точно и полностью учесть лексические токены, при этом учитывая ненужные или шумные акустические фреймы. Для решения этой задачи мы предлагаем модель на основе неоднородного транспортного портфеля (unbalanced optimal transport). Эта модель способна гибко учитывать расхождения в распределениях между акустическими и лексическими моделями, обеспечивая способность к частичному и прозрачному соотнесению. Мы вводим метод, гарантирующий, что каждый лексический токен будет привязан к акустическому сигналу, при этом позволяя программным, предсказуемым сопоставлениям. Эта модель позволяет контролировать уровень соответствия и, таким образом, улучшать производительность ASR.
## Результаты
Мы проводили эксперименты с CTC-базированной ASR-системой, использующей предварительно обученную модель языковой модели для передачи знаний. Мы использовали различные данные для тестирования, включая синтетические и реальные акустические потоки. Результаты показали, что наш подход эффективно обрабатывает расхождения в распределениях и повышает точность распознавания речи. Мы также проверили полноту и точность соотнесения, показав, что наша модель обеспечивает лучшую гибкость в учете ненужных акустических фреймов и улучшает стабильность ASR в условиях различных уровней шума.
## Значимость
Предложенная модель имеет широкие возможности применения в области ASR и других задачах, требующих выравнивания различных моделей. Она предоставляет более точное и устойчивое выравнивание, что повышает качество распознавания речи. Это может привести к лучшей универсаль
Abstract
Aligning acoustic and linguistic representations is a central challenge to
bridge the pre-trained models in knowledge transfer for automatic speech
recognition (ASR). This alignment is inherently structured and asymmetric:
while multiple consecutive acoustic frames typically correspond to a single
linguistic token (many-to-one), certain acoustic transition regions may relate
to multiple adjacent tokens (one-to-many). Moreover, acoustic sequences often
include frames with no linguistic counterpart, such as background noise or
silence may lead to imbalanced matching conditions. In this work, we take a new
insight to regard alignment and matching as a detection problem, where the goal
is to identify meaningful correspondences with high precision and recall
ensuring full coverage of linguistic tokens while flexibly handling redundant
or noisy acoustic frames in transferring linguistic knowledge for ASR. Based on
this new insight, we propose an unbalanced optimal transport-based alignment
model that explicitly handles distributional mismatch and structural
asymmetries with soft and partial matching between acoustic and linguistic
modalities. Our method ensures that every linguistic token is grounded in at
least one acoustic observation, while allowing for flexible, probabilistic
mappings from acoustic to linguistic units. We evaluate our proposed model with
experiments on an CTC-based ASR system with a pre-trained language model for
knowledge transfer. Experimental results demonstrate the effectiveness of our
approach in flexibly controlling degree of matching and hence to improve ASR
performance.
Ссылки и действия
Дополнительные ресурсы: