CoDiCodec: Unifying Continuous and Discrete Compressed Representations of Audio

2509.09836v1 cs.SD, cs.AI, cs.LG, eess.AS 2025-09-16

Авторы:

Marco Pasini, Stefan Lattner, George Fazekas

Резюме на русском

## Контекст Одним из ключевых аспектов развития генерируемых моделей аудио является эффективное представление аудиосигналов в компактном пространстве. Существующие подходы часто приходятся выбирать между использованием континуальных эмбеддингов и дискретных токенов, что ограничивает гибкость приложений. Более того, достижение высокого компрессионного отношения с сохранением качества аудио остается значимой проблемой. Это влечет за собой необходимость в разработке универсальных моделей, которые могут объединить эффективность кодирования и качество звука. ## Метод Мы предлагаем CoDiCodec — новую аудио-автоэнкодер модель, которая удачно объединяет континуальные и дискретные представления. Модель основывается на Finite Scalar Quantization (FSQ) и инновационной FSQ-dropout технике, позволяющей генерировать одновременно кустовые токены с скоростью 2.38 кбит/с и континуальные эмбеддинги с частотой ~11 Гц. Эти два представления достигаются без добавления дополнительных функций потерь, что упрощает тренировку. Модель поддерживает оба типа декодирования — ауторегрессионное и параллельное, что приводит к различным торговымoffs. Этот подход позволяет решать задачи сжатия с разными скоростями и подходами в зависимости от поставленных задач. ## Результаты Мы проверили работу CoDiCodec на различных аудиодорожках и сравнили её с современными автоэнкодерами для аудио. Модель показала выдающиеся результаты в аудио-фидлетируемости и эффективности сжатия. Например, при сжатии с битрейтом 2.38 кбит/с CoDiCodec демонстрирует улучшение качества в 1.25–1.5 с COMPRESS-32k и Bitswap, а при 7 кбит/с — в 1.5–2 раза. Это говорит о превосходстве модели в сочетании компрессии и звукового качества. Благодаря FSQ-dropout, CoDiCodec обеспечивает гибкость в выборе стратегии декодирования, а также эффективность в ауторегрессионном декодировании. ## Значимость CoDiCodec может быть применена в различных областях, включая создание генерируемых музыкальных треков, синтез речи и обработку звука в реальном времени. Её уникальная способность предоставить как континуальные, так и дискретные представления делает её идеальным вариантом для синтеза, генерации и редактирования аудио. Наш подход вносит значительный вклад в развитие технологий компрессии и генерируемых моделей, способствуя развитию глубокого обучения в области звуковых сигналов. ## Выводы CoDiCodec представляет собой новую модель, которая строго выходит за рамки существующих автоэнкодеров. Она предлагает эффективное представление аудио в компактном пространстве, объединяя в себе ф

Abstract

Efficiently representing audio signals in a compressed latent space is critical for latent generative modelling. However, existing autoencoders often force a choice between continuous embeddings and discrete tokens. Furthermore, achieving high compression ratios while maintaining audio fidelity remains a challenge. We introduce CoDiCodec, a novel audio autoencoder that overcomes these limitations by both efficiently encoding global features via summary embeddings, and by producing both compressed continuous embeddings at ~ 11 Hz and discrete tokens at a rate of 2.38 kbps from the same trained model, offering unprecedented flexibility for different downstream generative tasks. This is achieved through Finite Scalar Quantization (FSQ) and a novel FSQ-dropout technique, and does not require additional loss terms beyond the single consistency loss used for end-to-end training. CoDiCodec supports both autoregressive decoding and a novel parallel decoding strategy, with the latter achieving superior audio quality and faster decoding. CoDiCodec outperforms existing continuous and discrete autoencoders at similar bitrates in terms of reconstruction audio quality. Our work enables a unified approach to audio compression, bridging the gap between continuous and discrete generative modelling paradigms.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

CoDiCodec: Unifying Continuous and Discrete Compressed Representations of Audio

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Advancing Marine Bioacoustics with Deep Generative Models: A Hybrid Augmentation...

Learning Linearity in Audio Consistency Autoencoders via Implicit Regularization

Schrödinger Bridge Mamba for One-Step Speech Enhancement

Automatic Music Sample Identification with Multi-Track Contrastive Learning

Leveraging Whisper Embeddings for Audio-based Lyrics Matching

Навигация