TaDiCodec: Text-aware Diffusion Speech Tokenizer for Speech Language Modeling

2508.16790v1 cs.SD, cs.LG, eess.AS 2025-08-27
Авторы:

Yuancheng Wang, Dekun Chen, Xueyao Zhang, Junan Zhang, Jiaqi Li, Zhizheng Wu

Резюме на русском

## Контекст В статье приводится обзор текущих проблем в области текст-аудио моделей и аудио-текст моделей, определяя основные проблемы, связанные с работой текущих текстовых генераторов. Одним из главных узких мест является необходимость в высокоэффективной архитектуре, обеспечивающей качественную реконструкцию звука с минимальными потерями. Одним из важных мотивов является создание модели, которая будет эффективно работать в текстовых генераторах для преобразования звука или текста, сохраняя качество и эффективность. ## Метод TaDiCodec разработана как первая кодокидж-модель, основанная на текст-аудио-диффузии. Она предлагает энд-то-энд-оптимизацию для звукового сжатия с использованием трансформера-автокодека, а также интеграцию текст-гайда в декодер для повышения эффективности. Модель работает с очень низкой частотой кадров 6.25 Гц и битрейтом 0.0875 кбпс, что позволяет обеспечить эффективное сжатие звука. Из-за единой структуры TaDiCodec обеспечивает лучший тренировочный процесс без необходимости в дополнительных моделях для семантического расширения. ## Результаты Тестирование модели проводилось на задачах текстовой распознавательной речи и текстовой генерации с помощью текстовых генераторов. В результате было получено очень высокое качество реконструкции с минимальными потерями. Модель показала отличные результаты в метриках Word Error Rate (WER), speaker similarity (SIM), и speech quality (UTMOS). Эти результаты доказывают, что TaDiCodec эффективна в работе на задачах с низким разрешением и очень низкими рамками предоставляет лучшие результаты в сравнении с другими моделями. ## Значимость TaDiCodec может быть применена в разных областях, включая текстовые генераторы, текстовую распознавательную речь и генерацию звуков. Она предоставляет значительные преимущества, такие как эффективное сжатие звука, низкий порог для разработки и использования, а также возможность интеграции с различными текстовыми генераторами. В будущем модель может использоваться для создания новых текстовых генераторов с высоким качеством реконструкции с минимальным издержанием ресурсов. ## Выводы TaDiCodec достигла нового уровня эффективности в текстовой генерации и реконструкции с помощью диффузионной модели. Она предлагает новый подход к решению проблем, связанных с существующими моделями, и может стать основой для развития новых моделей в области звукового сжатия. Будущие исследования будут направлены на улучшение точности реконструкции, уменьшение потерь и расширение применения модели в различных задачах текстовой гене

Abstract

Speech tokenizers serve as foundational components for speech language models, yet current designs exhibit several limitations, including: 1) dependence on multi-layer residual vector quantization structures or high frame rates, 2) reliance on auxiliary pre-trained models for semantic distillation, and 3) requirements for complex two-stage training processes. In this work, we introduce the Text-aware Diffusion Transformer Speech Codec (TaDiCodec), a novel approach designed to overcome these challenges. TaDiCodec employs end-to-end optimization for quantization and reconstruction through a diffusion autoencoder, while integrating text guidance into the diffusion decoder to enhance reconstruction quality and achieve optimal compression. TaDiCodec achieves an extremely low frame rate of 6.25 Hz and a corresponding bitrate of 0.0875 kbps with a single-layer codebook for 24 kHz speech, while maintaining superior performance on critical speech generation evaluation metrics such as Word Error Rate (WER), speaker similarity (SIM), and speech quality (UTMOS). Notably, TaDiCodec employs a single-stage, end-to-end training paradigm, and obviating the need for auxiliary pre-trained models. We also validate the compatibility of TaDiCodec in language model based zero-shot text-to-speech with both autoregressive modeling and masked generative modeling, demonstrating its effectiveness and efficiency for speech language modeling, as well as a significantly small reconstruction-generation gap. We will open source our code and model checkpoints. Audio samples are are available at https:/tadicodec.github.io/. We release code and model checkpoints at https:/github.com/HeCheng0625/Diffusion-Speech-Tokenizer.

Ссылки и действия