Optimal Transport Regularization for Speech Text Alignment in Spoken Language Models
2508.08131v1
cs.CL, cs.AI
2025-08-13
Авторы:
Wenze Xu, Chun Wang, Jiazhen Yu, Sheng Chen, Liang Gao, Weihong Deng
Резюме на русском
## Контекст
Словные языковые модели (SLM), расширяющие большие языковые модели (LLM) для обработки речевых входов, привлекают все больше внимания благодаря их потенциалу в улучшении задач понимания речи. Однако несмотря на прогресс в области SLM, они часто сталкиваются с проблемами генерализации на разных наборах данных, даже если они обучены на одном языке и задаче. Эта проблема может быть связана с модульной разницей между речью и текстом, которая может приводить к переобучению на конкретные свойства речи, ограничивая общую подготовку моделей. Оптимальная транспортная регуляризация (OTReg) предлагается для решения этой проблемы, сформулировав алгоритм, который может стабилизировать и улучшить подготовку SLM.
## Метод
Оптимальная транспортная регуляризация (OTReg) вводит новую методологию для улучшения генерализации SLM. Она формулирует проблему выравнивания речи и текста как задачу оптимального транспорта, беря во внимание структурное соответствие между речевыми и текстовыми эмбеддингами. В каждой итерации обучения, OTReg определяет оптимальный план транспорта для синхронизации этих эмбеддингов и использует это соответствие для добавления регуляризационного утяжеления к функции потерь. Это позволяет SLM лучше согласовывать свои выходы с речевыми эмбеддингами, улучшая их возможности генерализации. OTReg требует минимальных дополнительных ресурсов, таких как дополнительные метки или параметры, и может легко встраиваться в существующие процедуры обучения.
## Результаты
Эксперименты проводились на нескольких языках в рамках ассистированных систем речи (ASR). Результаты показали, что OTReg существенно улучшает выравнивание речи и текста, снижает модульную разницу, и в целом повышает производительность SLM на новых данных. Он подтвердил свою эффективность по сравнению с базовым SLM и другими методами регуляризации, подтвердив свою способность улучшить общую подготовку модели.
## Значимость
OTReg может применяться в различных областях, включая транскрибацию речи, генерацию речи и распознавание речи. Он предоставляет более точное и согласованное выравнивание между речью и текстом, что повышает общую надежность и обобщаемость SLM. Благодаря своей простоте и эффективности, OTReg может быть широко применен в системах с большим объемом данных и многоязычной речевой обработкой.
## Выводы
Оптимальная транспортная регуляризация (OTReg) стабилизирует и улучшает обучение SLM, снижая модульную разницу между речью и текстом. Это приводит к улучшению генерализации модели и ее приложений. Будущие иссле
Abstract
Spoken Language Models (SLMs), which extend Large Language Models (LLMs) to
perceive speech inputs, have gained increasing attention for their potential to
advance speech understanding tasks. However, despite recent progress, studies
show that SLMs often struggle to generalize across datasets, even for trained
languages and tasks, raising concerns about whether they process speech in a
text-like manner as intended. A key challenge underlying this limitation is the
modality gap between speech and text representations. The high variability in
speech embeddings may allow SLMs to achieve strong in-domain performance by
exploiting unintended speech variations, ultimately hindering generalization.
To mitigate this modality gap, we introduce Optimal Transport Regularization
(OTReg), a method that formulates speech-text alignment as an optimal transport
problem and derives a regularization loss to improve SLM training. In each
training iteration, OTReg first establishes a structured correspondence between
speech and transcript embeddings by determining the optimal transport plan,
then incorporates the regularization loss based on this transport plan to
optimize SLMs in generating speech embeddings that align more effectively with
transcript embeddings. OTReg is lightweight, requiring no additional labels or
learnable parameters, and integrates seamlessly into existing SLM training
procedures. Extensive multilingual ASR experiments demonstrate that OTReg
enhances speech-text alignment, mitigates the modality gap, and consequently
improves SLM generalization across diverse datasets.
Ссылки и действия
Дополнительные ресурсы: