WhisTLE: Deeply Supervised, Text-Only Domain Adaptation for Pretrained Speech Recognition Transformers
2509.10452v1
cs.CL, cs.LG
2025-09-16
Авторы:
Akshat Pandey, Karun Kumar, Raphael Tang
Резюме на русском
## Контекст
Предварительно обученные модели распознавания речи, такие как Whisper, демонстрируют выдающиеся результаты в распознавании речи. Однако они не всегда эффективны при работе с незнакомым лексиконом или параллелизмом. Это проблема особенно актуальна в реальных сценариях, где сбор звуковых данных затруднен и невозможен в регулярных условиях. В таких ситуациях становится необходимым развитие текстово-ориентированных методов адаптации, которые могут улучшить точность распознавания без дополнительных звуковых данных.
## Метод
Мы предлагаем WhisTLE — метод глубокой супервайзированной адаптации без подсказок, ориентированный на текст. Метод включает в себя несколько ключевых компонентов. Во-первых, мы обучаем вариационный автоэнкодер (VAE) для моделирования выходов преобразователя из текстовых данных. Этот этап позволяет восстанавливать информацию из текста с минимальным ущербем. Во-вторых, мы применяем глубокую супервайзированную адаптацию, где декодер обучается с использованием текстово-в-латентное преобразование, возможно объединенное с текстово-во-речь (TTS) адаптацией. Наконец, на этапе инференса, мы восстанавливаем предварительно обученный преобразователь, чтобы не увеличивать затраты на вычисления.
## Результаты
Мы проверили эффективность WhisTLE на четырех выборках текстовых данных и четырёх моделях распознавания речи. Наши эксперименты показали, что применение WhisTLE с TTS приводит к снижению ошибки слов (WER) на 12.3% по сравнению с TTS-only адаптацией. Более того, WhisTLE показал лучшие результаты в 27 из 32 сценариев по сравнению с другими текстовыми методами адаптации. Эти результаты подтверждают эффективность WhisTLE в области текстовой адаптации без дополнительных звуковых данных.
## Значимость
Метод WhisTLE может быть применен в различных сценариях, где доступ к звуковым данным ограничен, но есть текстовые ресурсы. Например, это может быть полезно в окружениях, где нужно распознавать речи на редких языках или в ситуациях, когда необходимо обрабатывать нестандартные лексики. Преимущественным моментом является возможность улучшения точности распознавания без дополнительных затрат на сбор звуковых данных. Мы считаем, что WhisTLE может стать ключевым инструментом для расширения возможностей текстового распознавания речи.
## Выводы
Мы представили WhisTLE — новый метод глубокой супервайзированной текстовой адаптации для предобученных моделей распознавания речи. Наши эксперименты показали, что этот подход значительно улучшает точность распознавания, даже в условиях отсу
Abstract
Pretrained automatic speech recognition (ASR) models such as Whisper perform
well but still need domain adaptation to handle unseen vocabulary and parlance.
In many real-world settings, collecting speech data is impractical,
necessitating text-only adaptation. We propose WhisTLE, a deeply supervised,
text-only adaptation method for pretrained encoder-decoder ASR models. WhisTLE
trains a variational autoencoder (VAE) to model encoder outputs from text and
fine-tunes the decoder using the learned text-to-latent encoder, optionally
combined with text-to-speech (TTS) adaptation. At inference, the original
encoder is restored, incurring no extra runtime cost. Across four out-of-domain
datasets and four ASR models, WhisTLE with TTS reduces word error rate (WER) by
12.3% relative to TTS-only adaptation and outperforms all non-WhisTLE baselines
in 27 of 32 scenarios.
Ссылки и действия
Дополнительные ресурсы: