Finite Scalar Quantization Enables Redundant and Transmission-Robust Neural Audio Compression at Low Bit-rates

2509.09550v1 cs.SD, cs.LG 2025-09-13

Авторы:

Harry Julia, Rachel Beeson, Lohith Konathala, Johanna Ulin, Jiameng Gao

Резюме на русском

## Контекст Нейронные аудио кодеки (Neural Audio Codecs, NACs) приобретают все большую популярность в области обработки речевых сигналов благодаря высокому размеру-износу (rate-distortion) и совместимости с большими моделями языка (Large Language Models, LLMs) как алгоритмами для генерации аудио. Основная часть существующих кодеков основывается на технике векторной резидуальной квантования (Residual Vector Quantization, RVQ). Однако недавно появилась альтернативная техника, называемая линейным квантованием (Finite Scalar Quantization, FSQ), которая упрощает процесс обучения и поддерживает встроенный один кодек. Несмотря на эти преимущества, FSQ до сих пор не получила должного внимания в аудио-кодексинге. Мы предлагаем NeuCodec, основанный на FSQ, и рассматриваем возможность этой новой архитектуры для аудио-кодексинга. ## Метод FSQ имеет встроенную разнообразию в своим кодировании, что делает его восприятие более устойчивым к шумам в трансмиссии. Мы разрабатываем NeuCodec, который сочетает в себе методы FSQ с техниками дистилляции эксперта (encoder distillation) для повышения производительности. Эта архитектура позволяет изучить возможность двух разных кодировщиков для генерации разных кодовых последовательностей из одного и того же аудио, но сохраняя высокое качество воспроизведения. Мы также исследуем устойчивость FSQ к погрешностям в бит-уровне при подделке кодовых последовательностей в шумных каналах. ## Результаты Мы проводим эксперименты для оценки различных аспектов NeuCodec. В первом эксперименте два разных кодировщика существенно различаются в выходных кодовых последовательностях, но сохраняют высокую качественную кодировку благодаря одному кодеку. Во втором эксперименте мы исследуем устойчивость FSQ к шуму в трансмиссии. Проведя эмуляцию кода, мы показываем, что FSQ демонстрирует значительное улучшение устойчивости к погрешностям в бит-уровне в сравнении с RVQ. ## Значимость Наша работа открывает новые перспективы для применения FSQ в аудио-кодексинге, особенно в условиях низкого бит-рейта. Мы показываем, что FSQ не только упрощает процесс обучения, но и обеспечивает высокую устойчивость к шумам в трансмиссии. Это делает NeuCodec привлекательным для использования в реальных условиях, где кодирование должно быть простым и надёжным. ## Выводы Мы устанавливаем, что Finite Scalar Quantization (FSQ) предлагает значительные преимущества перед существующими методами, такими как RVQ, в области аудио-кодексинга. Наши результаты показывают, что FSQ обеспечивает высокую устойчивость к шуму и легко учится. Мы считаем, что будущие исследования должны сосредоточиться на расширении FSQ

Abstract

Neural Audio Codecs (NACs) have become increasingly adopted in speech processing tasks due to their excellent rate-distortion performance and compatibility with Large Language Models (LLMs) as discrete feature representations for audio generation. While most existing codecs rely on Residual Vector Quantization (RVQ), Finite Scalar Quantization (FSQ) has recently emerged as a compelling alternative that simplifies training and natively supports single codebooks. We introduce NeuCodec, an FSQ-based NAC, and show that FSQ encodes baked-in redundancy which produces an encoding which is robust when transmitted through noisy channels. First, through an encoder distillation experiment, we show that two different encoders can learn to encode identical audio into vastly different code sequences whilst maintaining comparable reconstruction quality with the same quantizer and decoder. Second, we demonstrate that FSQ has vastly superior bit-level perturbation robustness by comparing the performance of RVQ and FSQ codecs when simulating the transmission of code sequences through a noisy channel.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Finite Scalar Quantization Enables Redundant and Transmission-Robust Neural Audio Compression at Low Bit-rates

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Contract-Driven QoE Auditing for Speech and Singing Services: From MOS Regressio...

Generative Multi-modal Feedback for Singing Voice Synthesis Evaluation

Differentiable Attenuation Filters for Feedback Delay Networks

DHAuDS: A Dynamic and Heterogeneous Audio Benchmark for Test-Time Adaptation

Count The Notes: Histogram-Based Supervision for Automatic Music Transcription

Навигация