Finite Scalar Quantization Enables Redundant and Transmission-Robust Neural Audio Compression at Low Bit-rates

2509.09550v2 cs.SD, cs.LG 2025-09-15
Авторы:

Harry Julian, Rachel Beeson, Lohith Konathala, Johanna Ulin, Jiameng Gao

Резюме на русском

#### Контекст Neural Audio Codecs (NACs) получили широкое применение в процессинге аудио, благодаря высокой эффективности в сжатии и совместимости с Large Language Models (LLMs). Однако большинство существующих кодеков опираются на Residual Vector Quantization (RVQ), которая включает дополнительные сложительные вычисления и требует множественных кодеков. В этой статье предлагается Finite Scalar Quantization (FSQ) — альтернативная методика, которая упрощает процесс обучения и хорошо подходит для использования в одном кодеке. Кроме того, FSQ обеспечивает робастность кодирования при передаче по шумным каналам. #### Метод FSQ использует один кодек, устраняя необходимость в нескольких исполнениях. Методика включает новую архитектуру NeuCodec, которая вырабатывает кодирование с встроенной резилиентностью к шумам. Эксперименты включили дистилляцию энкодеров и симуляцию передачи аудио по шумному каналу. #### Результаты Проведены эксперименты, показавшие, что два разных энкодера могут преобразовать один и тот же аудио файл в разные коды, при этом сохраняя высокую точность воспроизведения. Было также продемонстрировано, что FSQ гораздо более терпит шум в канале передачи по сравнению с RVQ. #### Значимость FSQ может быть применено в различных областях, где требуется высококачественное сжатие аудио в условиях шума — например, в телекоммуникациях, IoT и системах автоматического звукового анализа. Основные преимущества включают упрощение процесса обучения, лучшую робастность и эффективность в ресурсах. #### Выводы FSQ продемонстрировал свою эффективность в режиме low bit-rate, где достиг достижил значительного прогресса в сжатии аудио. Будущие исследования будут фокусироваться на расширении методики для дополнительных сценариев применения и улучшении её гибкости.

Abstract

Neural Audio Codecs (NACs) have become increasingly adopted in speech processing tasks due to their excellent rate-distortion performance and compatibility with Large Language Models (LLMs) as discrete feature representations for audio generation. While most existing codecs rely on Residual Vector Quantization (RVQ), Finite Scalar Quantization (FSQ) has recently emerged as a compelling alternative that simplifies training and natively supports single codebooks. We introduce NeuCodec, an FSQ-based NAC, and show that FSQ encodes baked-in redundancy which produces an encoding which is robust when transmitted through noisy channels. First, through an encoder distillation experiment, we show that two different encoders can learn to encode identical audio into vastly different code sequences whilst maintaining comparable reconstruction quality with the same quantizer and decoder. Second, we demonstrate that FSQ has vastly superior bit-level perturbation robustness by comparing the performance of RVQ and FSQ codecs when simulating the transmission of code sequences through a noisy channel.

Ссылки и действия