Finite Scalar Quantization Enables Redundant and Transmission-Robust Neural Audio Compression at Low Bit-rates
2509.09550v1
cs.SD, cs.LG
2025-09-13
Авторы:
Harry Julia, Rachel Beeson, Lohith Konathala, Johanna Ulin, Jiameng Gao
Резюме на русском
## Контекст
Нейронные аудио кодеки (Neural Audio Codecs, NACs) приобретают все большую популярность в области обработки речевых сигналов благодаря высокому размеру-износу (rate-distortion) и совместимости с большими моделями языка (Large Language Models, LLMs) как алгоритмами для генерации аудио. Основная часть существующих кодеков основывается на технике векторной резидуальной квантования (Residual Vector Quantization, RVQ). Однако недавно появилась альтернативная техника, называемая линейным квантованием (Finite Scalar Quantization, FSQ), которая упрощает процесс обучения и поддерживает встроенный один кодек. Несмотря на эти преимущества, FSQ до сих пор не получила должного внимания в аудио-кодексинге. Мы предлагаем NeuCodec, основанный на FSQ, и рассматриваем возможность этой новой архитектуры для аудио-кодексинга.
## Метод
FSQ имеет встроенную разнообразию в своим кодировании, что делает его восприятие более устойчивым к шумам в трансмиссии. Мы разрабатываем NeuCodec, который сочетает в себе методы FSQ с техниками дистилляции эксперта (encoder distillation) для повышения производительности. Эта архитектура позволяет изучить возможность двух разных кодировщиков для генерации разных кодовых последовательностей из одного и того же аудио, но сохраняя высокое качество воспроизведения. Мы также исследуем устойчивость FSQ к погрешностям в бит-уровне при подделке кодовых последовательностей в шумных каналах.
## Результаты
Мы проводим эксперименты для оценки различных аспектов NeuCodec. В первом эксперименте два разных кодировщика существенно различаются в выходных кодовых последовательностях, но сохраняют высокую качественную кодировку благодаря одному кодеку. Во втором эксперименте мы исследуем устойчивость FSQ к шуму в трансмиссии. Проведя эмуляцию кода, мы показываем, что FSQ демонстрирует значительное улучшение устойчивости к погрешностям в бит-уровне в сравнении с RVQ.
## Значимость
Наша работа открывает новые перспективы для применения FSQ в аудио-кодексинге, особенно в условиях низкого бит-рейта. Мы показываем, что FSQ не только упрощает процесс обучения, но и обеспечивает высокую устойчивость к шумам в трансмиссии. Это делает NeuCodec привлекательным для использования в реальных условиях, где кодирование должно быть простым и надёжным.
## Выводы
Мы устанавливаем, что Finite Scalar Quantization (FSQ) предлагает значительные преимущества перед существующими методами, такими как RVQ, в области аудио-кодексинга. Наши результаты показывают, что FSQ обеспечивает высокую устойчивость к шуму и легко учится. Мы считаем, что будущие исследования должны сосредоточиться на расширении FSQ
Abstract
Neural Audio Codecs (NACs) have become increasingly adopted in speech
processing tasks due to their excellent rate-distortion performance and
compatibility with Large Language Models (LLMs) as discrete feature
representations for audio generation. While most existing codecs rely on
Residual Vector Quantization (RVQ), Finite Scalar Quantization (FSQ) has
recently emerged as a compelling alternative that simplifies training and
natively supports single codebooks. We introduce NeuCodec, an FSQ-based NAC,
and show that FSQ encodes baked-in redundancy which produces an encoding which
is robust when transmitted through noisy channels. First, through an encoder
distillation experiment, we show that two different encoders can learn to
encode identical audio into vastly different code sequences whilst maintaining
comparable reconstruction quality with the same quantizer and decoder. Second,
we demonstrate that FSQ has vastly superior bit-level perturbation robustness
by comparing the performance of RVQ and FSQ codecs when simulating the
transmission of code sequences through a noisy channel.
Ссылки и действия
Дополнительные ресурсы: