Optimal Transport Regularization for Speech Text Alignment in Spoken Language Models

2508.08131v1 cs.CL, cs.AI 2025-08-13

Авторы:

Wenze Xu, Chun Wang, Jiazhen Yu, Sheng Chen, Liang Gao, Weihong Deng

Резюме на русском

## Контекст Словные языковые модели (SLM), расширяющие большие языковые модели (LLM) для обработки речевых входов, привлекают все больше внимания благодаря их потенциалу в улучшении задач понимания речи. Однако несмотря на прогресс в области SLM, они часто сталкиваются с проблемами генерализации на разных наборах данных, даже если они обучены на одном языке и задаче. Эта проблема может быть связана с модульной разницей между речью и текстом, которая может приводить к переобучению на конкретные свойства речи, ограничивая общую подготовку моделей. Оптимальная транспортная регуляризация (OTReg) предлагается для решения этой проблемы, сформулировав алгоритм, который может стабилизировать и улучшить подготовку SLM. ## Метод Оптимальная транспортная регуляризация (OTReg) вводит новую методологию для улучшения генерализации SLM. Она формулирует проблему выравнивания речи и текста как задачу оптимального транспорта, беря во внимание структурное соответствие между речевыми и текстовыми эмбеддингами. В каждой итерации обучения, OTReg определяет оптимальный план транспорта для синхронизации этих эмбеддингов и использует это соответствие для добавления регуляризационного утяжеления к функции потерь. Это позволяет SLM лучше согласовывать свои выходы с речевыми эмбеддингами, улучшая их возможности генерализации. OTReg требует минимальных дополнительных ресурсов, таких как дополнительные метки или параметры, и может легко встраиваться в существующие процедуры обучения. ## Результаты Эксперименты проводились на нескольких языках в рамках ассистированных систем речи (ASR). Результаты показали, что OTReg существенно улучшает выравнивание речи и текста, снижает модульную разницу, и в целом повышает производительность SLM на новых данных. Он подтвердил свою эффективность по сравнению с базовым SLM и другими методами регуляризации, подтвердив свою способность улучшить общую подготовку модели. ## Значимость OTReg может применяться в различных областях, включая транскрибацию речи, генерацию речи и распознавание речи. Он предоставляет более точное и согласованное выравнивание между речью и текстом, что повышает общую надежность и обобщаемость SLM. Благодаря своей простоте и эффективности, OTReg может быть широко применен в системах с большим объемом данных и многоязычной речевой обработкой. ## Выводы Оптимальная транспортная регуляризация (OTReg) стабилизирует и улучшает обучение SLM, снижая модульную разницу между речью и текстом. Это приводит к улучшению генерализации модели и ее приложений. Будущие иссле

Abstract

Spoken Language Models (SLMs), which extend Large Language Models (LLMs) to perceive speech inputs, have gained increasing attention for their potential to advance speech understanding tasks. However, despite recent progress, studies show that SLMs often struggle to generalize across datasets, even for trained languages and tasks, raising concerns about whether they process speech in a text-like manner as intended. A key challenge underlying this limitation is the modality gap between speech and text representations. The high variability in speech embeddings may allow SLMs to achieve strong in-domain performance by exploiting unintended speech variations, ultimately hindering generalization. To mitigate this modality gap, we introduce Optimal Transport Regularization (OTReg), a method that formulates speech-text alignment as an optimal transport problem and derives a regularization loss to improve SLM training. In each training iteration, OTReg first establishes a structured correspondence between speech and transcript embeddings by determining the optimal transport plan, then incorporates the regularization loss based on this transport plan to optimize SLMs in generating speech embeddings that align more effectively with transcript embeddings. OTReg is lightweight, requiring no additional labels or learnable parameters, and integrates seamlessly into existing SLM training procedures. Extensive multilingual ASR experiments demonstrate that OTReg enhances speech-text alignment, mitigates the modality gap, and consequently improves SLM generalization across diverse datasets.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Optimal Transport Regularization for Speech Text Alignment in Spoken Language Models

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

UW-BioNLP at ChemoTimelines 2025: Thinking, Fine-Tuning, and Dictionary-Enhanced...

AdmTree: Compressing Lengthy Context with Adaptive Semantic Trees

SignRoundV2: Closing the Performance Gap in Extremely Low-Bit Post-Training Quan...

Mitigating Catastrophic Forgetting in Target Language Adaptation of LLMs via Sou...

SEAL: Self-Evolving Agentic Learning for Conversational Question Answering over ...

Навигация