Audio-Conditioned Diffusion LLMs for ASR and Deliberation Processing
2509.16622v1
eess.AS, cs.AI, cs.SD
2025-09-24
Авторы:
Mengqi Wang, Zhan Liu, Zengrui Jin, Guangzhi Sun, Chao Zhang, Philip C. Woodland
Резюме на русском
## Контекст
Статья рассматривает применение инновационных Diffusion-based Large Language Models (DLLMs) в области Automatic Speech Recognition (ASR), а именно применение модели LLaDA для оценки текста из речи. Область ASR широко применяется в системах контроля голосом, помощи в ситуациях с недоступностью клавиатуры, автоматизации сервисных процессов и многом другом. Несмотря на прогрессы в ASR, остаются проблемы, такие как высокая ошибка распознавания на нестандартных акцентах или шумных условиях. DLLMs, в частности LLaDA, могут решить эти проблемы благодаря их мощной символической и активной обработке текста, а также их возможностью работы с аудио и текстовыми сигналами.
## Метод
Методология основывается на использовании модели LLaDA для ASR, которая работает как дополнительный модуль для процесса декодирования речи. На основе Whisper-LLaMA, авторы испытали различные стратегии обработки текста: random masking, low-confidence masking и semi-autoregressive decoding. Эти методы позволяют LLaDA лучше использовать свои природные способности к bidirectional attention и denoising. Также LLaDA получает дополнительные аудио-кодировки, которые значительно повышают точность распознавания. Для сравнения, они провели эксперименты с "простой" LLaDA без аудио-кодировки, что показало проблему нехватки информации при работе только с текстом.
## Результаты
В результатах статьи приводятся результаты ASR с использованием Whisper-LLaDA в качестве дополнительного модуля. Эксперименты проводились на двух датасетах: LibriSpeech и другом домашнем датасете. На test-clean и test-other LibriSpeech, лучшая система с Whisper-LLaDA показала результаты в 2.25%/4.94% WER (Word Error Rate), что является 12.3% относительного улучшения в сравнении с базовой Whisper-LLaMA. В то же время, использование "простой" LLaDA без аудио-кодировки не привело к улучшению. Это подчеркивает важное значение аудио-кодировки для повышения качества распознавания речи.
## Значимость
Полученные результаты показывают, что добавление аудио-кодировок в модель LLaDA может значительно повысить качество распознавания речи, особенно на сложных данных. Это открывает новые пути для применения DLLMs в аспектах ASR, таких как распознавание разговорных языков, работа с шумом и специализированные ситуации, такие как работа с нестандартными акцентами. Также, LLaDA может применяться в ситуациях требующих быстрого реагирования, так как в некоторых конфигурациях она вы most cases, Whisper-LLaDA provided faster inference than the Whisper-LLaMA baseline.
## Выводы
Лингвистические модели, основанные на Diffusion-based DLLMs, демонстрируют очень высокую потенциальную эффективность в области ASR. Это демонстрируется применением LLaDA как дополнительного модуля для ASR. Однако, необходимо продолжать работу над улучшением точности распознавания и уменьшением в
Abstract
Diffusion-based large language models (DLLMs) have recently attracted growing
interest as an alternative to autoregressive decoders. In this work, we present
an empirical study on using the diffusion-based large language model LLaDA for
automatic speech recognition (ASR). We first investigate its use as an external
deliberation-based processing module for Whisper-LLaMA transcripts. By
leveraging the bidirectional attention and denoising capabilities of LLaDA, we
explore random masking, low-confidence masking, and semi-autoregressive
strategies, showing that Whisper-LLaDA substantially reduces WER compared with
the baseline. On LibriSpeech, the best cascade system achieves 2.25%/4.94% WER
on test-clean/test-other, representing a 12.3% relative improvement over the
Whisper-LLaMA baseline on the test-other split. In contrast, a plain-text LLaDA
without acoustic features fails to improve accuracy, highlighting the
importance of audio-conditioned embeddings. We further evaluate Whisper-LLaDA
as a standalone decoder for ASR with diffusion-based and semi-autoregressive
decoding. Most experimental configurations achieve faster inference than the
Whisper-LLaMA baseline, although recognition accuracy is slightly lower. These
findings offer an empirical view of diffusion-based LLMs for ASR and point to
promising directions for improvements.
Ссылки и действия
Дополнительные ресурсы: