WhisTLE: Deeply Supervised, Text-Only Domain Adaptation for Pretrained Speech Recognition Transformers

2509.10452v1 cs.CL, cs.LG 2025-09-16

Авторы:

Akshat Pandey, Karun Kumar, Raphael Tang

Резюме на русском

## Контекст Предварительно обученные модели распознавания речи, такие как Whisper, демонстрируют выдающиеся результаты в распознавании речи. Однако они не всегда эффективны при работе с незнакомым лексиконом или параллелизмом. Это проблема особенно актуальна в реальных сценариях, где сбор звуковых данных затруднен и невозможен в регулярных условиях. В таких ситуациях становится необходимым развитие текстово-ориентированных методов адаптации, которые могут улучшить точность распознавания без дополнительных звуковых данных. ## Метод Мы предлагаем WhisTLE — метод глубокой супервайзированной адаптации без подсказок, ориентированный на текст. Метод включает в себя несколько ключевых компонентов. Во-первых, мы обучаем вариационный автоэнкодер (VAE) для моделирования выходов преобразователя из текстовых данных. Этот этап позволяет восстанавливать информацию из текста с минимальным ущербем. Во-вторых, мы применяем глубокую супервайзированную адаптацию, где декодер обучается с использованием текстово-в-латентное преобразование, возможно объединенное с текстово-во-речь (TTS) адаптацией. Наконец, на этапе инференса, мы восстанавливаем предварительно обученный преобразователь, чтобы не увеличивать затраты на вычисления. ## Результаты Мы проверили эффективность WhisTLE на четырех выборках текстовых данных и четырёх моделях распознавания речи. Наши эксперименты показали, что применение WhisTLE с TTS приводит к снижению ошибки слов (WER) на 12.3% по сравнению с TTS-only адаптацией. Более того, WhisTLE показал лучшие результаты в 27 из 32 сценариев по сравнению с другими текстовыми методами адаптации. Эти результаты подтверждают эффективность WhisTLE в области текстовой адаптации без дополнительных звуковых данных. ## Значимость Метод WhisTLE может быть применен в различных сценариях, где доступ к звуковым данным ограничен, но есть текстовые ресурсы. Например, это может быть полезно в окружениях, где нужно распознавать речи на редких языках или в ситуациях, когда необходимо обрабатывать нестандартные лексики. Преимущественным моментом является возможность улучшения точности распознавания без дополнительных затрат на сбор звуковых данных. Мы считаем, что WhisTLE может стать ключевым инструментом для расширения возможностей текстового распознавания речи. ## Выводы Мы представили WhisTLE — новый метод глубокой супервайзированной текстовой адаптации для предобученных моделей распознавания речи. Наши эксперименты показали, что этот подход значительно улучшает точность распознавания, даже в условиях отсу

Abstract

Pretrained automatic speech recognition (ASR) models such as Whisper perform well but still need domain adaptation to handle unseen vocabulary and parlance. In many real-world settings, collecting speech data is impractical, necessitating text-only adaptation. We propose WhisTLE, a deeply supervised, text-only adaptation method for pretrained encoder-decoder ASR models. WhisTLE trains a variational autoencoder (VAE) to model encoder outputs from text and fine-tunes the decoder using the learned text-to-latent encoder, optionally combined with text-to-speech (TTS) adaptation. At inference, the original encoder is restored, incurring no extra runtime cost. Across four out-of-domain datasets and four ASR models, WhisTLE with TTS reduces word error rate (WER) by 12.3% relative to TTS-only adaptation and outperforms all non-WhisTLE baselines in 27 of 32 scenarios.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

WhisTLE: Deeply Supervised, Text-Only Domain Adaptation for Pretrained Speech Recognition Transformers

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

A Preliminary Study on the Promises and Challenges of Native Top-$k$ Sparse Atte...

Computational Linguistics Meets Libyan Dialect: A Study on Dialect Identificatio...

Sarcasm Detection on Reddit Using Classical Machine Learning and Feature Enginee...

Four Over Six: More Accurate NVFP4 Quantization with Adaptive Block Scaling

Enhancing Job Matching: Occupation, Skill and Qualification Linking with the ESC...

Навигация