Audio-Conditioned Diffusion LLMs for ASR and Deliberation Processing

2509.16622v1 eess.AS, cs.AI, cs.SD 2025-09-24

Авторы:

Mengqi Wang, Zhan Liu, Zengrui Jin, Guangzhi Sun, Chao Zhang, Philip C. Woodland

Резюме на русском

## Контекст Статья рассматривает применение инновационных Diffusion-based Large Language Models (DLLMs) в области Automatic Speech Recognition (ASR), а именно применение модели LLaDA для оценки текста из речи. Область ASR широко применяется в системах контроля голосом, помощи в ситуациях с недоступностью клавиатуры, автоматизации сервисных процессов и многом другом. Несмотря на прогрессы в ASR, остаются проблемы, такие как высокая ошибка распознавания на нестандартных акцентах или шумных условиях. DLLMs, в частности LLaDA, могут решить эти проблемы благодаря их мощной символической и активной обработке текста, а также их возможностью работы с аудио и текстовыми сигналами. ## Метод Методология основывается на использовании модели LLaDA для ASR, которая работает как дополнительный модуль для процесса декодирования речи. На основе Whisper-LLaMA, авторы испытали различные стратегии обработки текста: random masking, low-confidence masking и semi-autoregressive decoding. Эти методы позволяют LLaDA лучше использовать свои природные способности к bidirectional attention и denoising. Также LLaDA получает дополнительные аудио-кодировки, которые значительно повышают точность распознавания. Для сравнения, они провели эксперименты с "простой" LLaDA без аудио-кодировки, что показало проблему нехватки информации при работе только с текстом. ## Результаты В результатах статьи приводятся результаты ASR с использованием Whisper-LLaDA в качестве дополнительного модуля. Эксперименты проводились на двух датасетах: LibriSpeech и другом домашнем датасете. На test-clean и test-other LibriSpeech, лучшая система с Whisper-LLaDA показала результаты в 2.25%/4.94% WER (Word Error Rate), что является 12.3% относительного улучшения в сравнении с базовой Whisper-LLaMA. В то же время, использование "простой" LLaDA без аудио-кодировки не привело к улучшению. Это подчеркивает важное значение аудио-кодировки для повышения качества распознавания речи. ## Значимость Полученные результаты показывают, что добавление аудио-кодировок в модель LLaDA может значительно повысить качество распознавания речи, особенно на сложных данных. Это открывает новые пути для применения DLLMs в аспектах ASR, таких как распознавание разговорных языков, работа с шумом и специализированные ситуации, такие как работа с нестандартными акцентами. Также, LLaDA может применяться в ситуациях требующих быстрого реагирования, так как в некоторых конфигурациях она вы most cases, Whisper-LLaDA provided faster inference than the Whisper-LLaMA baseline. ## Выводы Лингвистические модели, основанные на Diffusion-based DLLMs, демонстрируют очень высокую потенциальную эффективность в области ASR. Это демонстрируется применением LLaDA как дополнительного модуля для ASR. Однако, необходимо продолжать работу над улучшением точности распознавания и уменьшением в

Abstract

Diffusion-based large language models (DLLMs) have recently attracted growing interest as an alternative to autoregressive decoders. In this work, we present an empirical study on using the diffusion-based large language model LLaDA for automatic speech recognition (ASR). We first investigate its use as an external deliberation-based processing module for Whisper-LLaMA transcripts. By leveraging the bidirectional attention and denoising capabilities of LLaDA, we explore random masking, low-confidence masking, and semi-autoregressive strategies, showing that Whisper-LLaDA substantially reduces WER compared with the baseline. On LibriSpeech, the best cascade system achieves 2.25%/4.94% WER on test-clean/test-other, representing a 12.3% relative improvement over the Whisper-LLaMA baseline on the test-other split. In contrast, a plain-text LLaDA without acoustic features fails to improve accuracy, highlighting the importance of audio-conditioned embeddings. We further evaluate Whisper-LLaDA as a standalone decoder for ASR with diffusion-based and semi-autoregressive decoding. Most experimental configurations achieve faster inference than the Whisper-LLaMA baseline, although recognition accuracy is slightly lower. These findings offer an empirical view of diffusion-based LLMs for ASR and point to promising directions for improvements.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Audio-Conditioned Diffusion LLMs for ASR and Deliberation Processing

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

BERT-APC: A Reference-free Framework for Automatic Pitch Correction via Musical ...

EchoFake: A Replay-Aware Dataset for Practical Speech Deepfake Detection

DroneAudioset: An Audio Dataset for Drone-based Search and Rescue

Unsupervised Speech Enhancement using Data-defined Priors

Data-Efficient ASR Personalization for Non-Normative Speech Using an Uncertainty...

Навигация