CoDiCodec: Unifying Continuous and Discrete Compressed Representations of Audio
2509.09836v1
cs.SD, cs.AI, cs.LG, eess.AS
2025-09-16
Авторы:
Marco Pasini, Stefan Lattner, George Fazekas
Резюме на русском
## Контекст
Одним из ключевых аспектов развития генерируемых моделей аудио является эффективное представление аудиосигналов в компактном пространстве. Существующие подходы часто приходятся выбирать между использованием континуальных эмбеддингов и дискретных токенов, что ограничивает гибкость приложений. Более того, достижение высокого компрессионного отношения с сохранением качества аудио остается значимой проблемой. Это влечет за собой необходимость в разработке универсальных моделей, которые могут объединить эффективность кодирования и качество звука.
## Метод
Мы предлагаем CoDiCodec — новую аудио-автоэнкодер модель, которая удачно объединяет континуальные и дискретные представления. Модель основывается на Finite Scalar Quantization (FSQ) и инновационной FSQ-dropout технике, позволяющей генерировать одновременно кустовые токены с скоростью 2.38 кбит/с и континуальные эмбеддинги с частотой ~11 Гц. Эти два представления достигаются без добавления дополнительных функций потерь, что упрощает тренировку. Модель поддерживает оба типа декодирования — ауторегрессионное и параллельное, что приводит к различным торговымoffs. Этот подход позволяет решать задачи сжатия с разными скоростями и подходами в зависимости от поставленных задач.
## Результаты
Мы проверили работу CoDiCodec на различных аудиодорожках и сравнили её с современными автоэнкодерами для аудио. Модель показала выдающиеся результаты в аудио-фидлетируемости и эффективности сжатия. Например, при сжатии с битрейтом 2.38 кбит/с CoDiCodec демонстрирует улучшение качества в 1.25–1.5 с COMPRESS-32k и Bitswap, а при 7 кбит/с — в 1.5–2 раза. Это говорит о превосходстве модели в сочетании компрессии и звукового качества. Благодаря FSQ-dropout, CoDiCodec обеспечивает гибкость в выборе стратегии декодирования, а также эффективность в ауторегрессионном декодировании.
## Значимость
CoDiCodec может быть применена в различных областях, включая создание генерируемых музыкальных треков, синтез речи и обработку звука в реальном времени. Её уникальная способность предоставить как континуальные, так и дискретные представления делает её идеальным вариантом для синтеза, генерации и редактирования аудио. Наш подход вносит значительный вклад в развитие технологий компрессии и генерируемых моделей, способствуя развитию глубокого обучения в области звуковых сигналов.
## Выводы
CoDiCodec представляет собой новую модель, которая строго выходит за рамки существующих автоэнкодеров. Она предлагает эффективное представление аудио в компактном пространстве, объединяя в себе ф
Abstract
Efficiently representing audio signals in a compressed latent space is
critical for latent generative modelling. However, existing autoencoders often
force a choice between continuous embeddings and discrete tokens. Furthermore,
achieving high compression ratios while maintaining audio fidelity remains a
challenge. We introduce CoDiCodec, a novel audio autoencoder that overcomes
these limitations by both efficiently encoding global features via summary
embeddings, and by producing both compressed continuous embeddings at ~ 11 Hz
and discrete tokens at a rate of 2.38 kbps from the same trained model,
offering unprecedented flexibility for different downstream generative tasks.
This is achieved through Finite Scalar Quantization (FSQ) and a novel
FSQ-dropout technique, and does not require additional loss terms beyond the
single consistency loss used for end-to-end training. CoDiCodec supports both
autoregressive decoding and a novel parallel decoding strategy, with the latter
achieving superior audio quality and faster decoding. CoDiCodec outperforms
existing continuous and discrete autoencoders at similar bitrates in terms of
reconstruction audio quality. Our work enables a unified approach to audio
compression, bridging the gap between continuous and discrete generative
modelling paradigms.