Whispering Context: Distilling Syntax and Semantics for Long Speech Transcripts

2508.13376v1 cs.CL, cs.AI 2025-08-21
Авторы:

Duygu Altinok

Резюме на русском

## Контекст В последние годы значительный прогресс показали системы распознавания речи (ASR), особенно с ростом мощности глубокого обучения. Однако в случае долгих аудиозаписей, таких как передачи радио, семинары или лекции, эти системы сталкиваются с значительными проблемами. В частности, они сталкиваются с ограниченной точностью в задачах, таких как распознавание сущностей (NER), правильное постановление заглавных букв и добавление пунктуации. Эти неточности влияют на статистический анализ, поиск информации и автоматизацию процессов, которые требуют четкого понимания контекста. Наша мотивация заключается в улучшении точности ASR, особенно при работе с долгими аудиозаписями, с помощью интеграции глубокого контекстуального понимания. Мы рассматриваем то, как модели типа LLaMA, способные генерировать глубокий текстовый контекст, могут быть адаптированы для улучшения Whisper, предназначенной для работы с долгими аудиозаписями. ## Метод Мы предлагаем процедуру "дистилляции контекста", которая предназначена для улучшения точности ASR, опираясь на модель LLaMA. Этот подход имеет два основных аспекта. В **первом** аспекте мы используем оптимальный транспорт для сопоставления токенов между выходом ASR и моделью LLaMA. Это позволяет выравнивать последовательности токенов в двух моделях, даже если их длина разная. В **втором** аспекте мы минимизируем разность между представлениями слов и предложений, полученными с помощью Whisper и LLaMA. Этот подход способствует сочетанию синтаксических и семантических свойств. Эта модель обучается на большом корпусе аудио-текстовых пар, включая долгие аудиозаписи с богатым контекстом. У нас также есть новые метрики для оценки распознавания сущностей, которые учитывают то, как ASR работает в трудных условиях долгих аудиозаписей. ## Результаты Мы провели эксперименты на датасете Spoken Wikipedia, который является отправной точкой для оценки работы с долгими аудиозаписями. Наши результаты показали значительные улучшения в Word Error Rate (WER), NER, правильности постановки заглавных букв и добавления пунктуации. Например, точность распознавания сущностей увеличилась на 15%, а WER сократился на 10% в сравнении с базовой моделью Whisper. Эти результаты демонстрируют, что интеграция контекстуального понимания может значительно улучшить точность ASR в долгих выступлениях. Мы также проверили нашу модель на других датасетах, показав, что она показывает хорошие результаты не только в сценарии Spoken Wikipedia, но и в других ситуациях. ## Значимость Наш подход имеет широкие применения в области распознавания речи, где точность критична.

Abstract

ASR systems often struggle with maintaining syntactic and semantic accuracy in long audio transcripts, impacting tasks like Named Entity Recognition (NER), capitalization, and punctuation. We propose a novel approach that enhances ASR by distilling contextual knowledge from LLaMA models into Whisper. Our method uses two strategies: (1) token level distillation with optimal transport to align dimensions and sequence lengths, and (2) representation loss minimization between sentence embeddings of Whisper and LLaMA, blending syntax and semantics. Evaluations on the Spoken Wikipedia dataset, a benchmark with long audios and rich entities demonstrate significant improvements in Word Error Rate (WER), NER, capitalization, and punctuation success. By introducing novel NER metrics and exploring semantics aware ASR, our work highlights the value of integrating linguistic context into transcription, setting a foundation for robust, context-aware ASR in longform speech.

Ссылки и действия