TaDiCodec: Text-aware Diffusion Speech Tokenizer for Speech Language Modeling
2508.16790v1
cs.SD, cs.LG, eess.AS
2025-08-27
Авторы:
Yuancheng Wang, Dekun Chen, Xueyao Zhang, Junan Zhang, Jiaqi Li, Zhizheng Wu
Резюме на русском
## Контекст
В статье приводится обзор текущих проблем в области текст-аудио моделей и аудио-текст моделей, определяя основные проблемы, связанные с работой текущих текстовых генераторов. Одним из главных узких мест является необходимость в высокоэффективной архитектуре, обеспечивающей качественную реконструкцию звука с минимальными потерями. Одним из важных мотивов является создание модели, которая будет эффективно работать в текстовых генераторах для преобразования звука или текста, сохраняя качество и эффективность.
## Метод
TaDiCodec разработана как первая кодокидж-модель, основанная на текст-аудио-диффузии. Она предлагает энд-то-энд-оптимизацию для звукового сжатия с использованием трансформера-автокодека, а также интеграцию текст-гайда в декодер для повышения эффективности. Модель работает с очень низкой частотой кадров 6.25 Гц и битрейтом 0.0875 кбпс, что позволяет обеспечить эффективное сжатие звука. Из-за единой структуры TaDiCodec обеспечивает лучший тренировочный процесс без необходимости в дополнительных моделях для семантического расширения.
## Результаты
Тестирование модели проводилось на задачах текстовой распознавательной речи и текстовой генерации с помощью текстовых генераторов. В результате было получено очень высокое качество реконструкции с минимальными потерями. Модель показала отличные результаты в метриках Word Error Rate (WER), speaker similarity (SIM), и speech quality (UTMOS). Эти результаты доказывают, что TaDiCodec эффективна в работе на задачах с низким разрешением и очень низкими рамками предоставляет лучшие результаты в сравнении с другими моделями.
## Значимость
TaDiCodec может быть применена в разных областях, включая текстовые генераторы, текстовую распознавательную речь и генерацию звуков. Она предоставляет значительные преимущества, такие как эффективное сжатие звука, низкий порог для разработки и использования, а также возможность интеграции с различными текстовыми генераторами. В будущем модель может использоваться для создания новых текстовых генераторов с высоким качеством реконструкции с минимальным издержанием ресурсов.
## Выводы
TaDiCodec достигла нового уровня эффективности в текстовой генерации и реконструкции с помощью диффузионной модели. Она предлагает новый подход к решению проблем, связанных с существующими моделями, и может стать основой для развития новых моделей в области звукового сжатия. Будущие исследования будут направлены на улучшение точности реконструкции, уменьшение потерь и расширение применения модели в различных задачах текстовой гене
Abstract
Speech tokenizers serve as foundational components for speech language
models, yet current designs exhibit several limitations, including: 1)
dependence on multi-layer residual vector quantization structures or high frame
rates, 2) reliance on auxiliary pre-trained models for semantic distillation,
and 3) requirements for complex two-stage training processes. In this work, we
introduce the Text-aware Diffusion Transformer Speech Codec (TaDiCodec), a
novel approach designed to overcome these challenges. TaDiCodec employs
end-to-end optimization for quantization and reconstruction through a diffusion
autoencoder, while integrating text guidance into the diffusion decoder to
enhance reconstruction quality and achieve optimal compression. TaDiCodec
achieves an extremely low frame rate of 6.25 Hz and a corresponding bitrate of
0.0875 kbps with a single-layer codebook for 24 kHz speech, while maintaining
superior performance on critical speech generation evaluation metrics such as
Word Error Rate (WER), speaker similarity (SIM), and speech quality (UTMOS).
Notably, TaDiCodec employs a single-stage, end-to-end training paradigm, and
obviating the need for auxiliary pre-trained models. We also validate the
compatibility of TaDiCodec in language model based zero-shot text-to-speech
with both autoregressive modeling and masked generative modeling, demonstrating
its effectiveness and efficiency for speech language modeling, as well as a
significantly small reconstruction-generation gap. We will open source our code
and model checkpoints. Audio samples are are available at
https:/tadicodec.github.io/. We release code and model checkpoints at
https:/github.com/HeCheng0625/Diffusion-Speech-Tokenizer.
Ссылки и действия
Дополнительные ресурсы: