Spectrogram Patch Codec: A 2D Block-Quantized VQ-VAE and HiFi-GAN for Neural Speech Coding

2509.02244v1 cs.SD, cs.CL, eess.AS 2025-09-05

Авторы:

Luis Felipe Chary, Miguel Arjona Ramirez

Резюме на русском

## Контекст Проблема неэффективности и высокой сложности существующих систем нейронного кодирования речи лежит в основе данных исследований. Традиционные подходы, такие как residual vector quantization (RVQ), требуют сложной архитектуры и значительных вычислительных ресурсов. Это ставит под сомнение их пригодность для реализации в режиме низкой задержки, необходимого для реального времени в телекоммуникационных системах. Данное исследование адресует эту проблему, предлагая простой, одноэтажный подход к кодированию спектрограмм, который упрощает архитектуру и обеспечивает высокую производительность. ## Метод Предлагаемый подход основывается на векторном квантизаторе типа VQ-VAE, но отличается упрощенной архитектурой. Он работает напрямую с mel-спектрограмой, разбивая ее на непересекающиеся 4x4 патчи, которые затем кодируются в едином общем кодексе. Для обеспечения высокого качества реконструкции звука в данной системе используется гибридный подход: в качестве генератора звука используется HiFi-GAN, который обучается заполнить дискретную структуру полученного латентного пространства. Этот вариант позволяет получить высококачественные аудиосигналы с низким затратом вычислительных ресурсов. ## Результаты Для оценки эффективности предложенного подхода проведены многочисленные эксперименты с использованием различных метрик качества, таких как STOI, PESQ, MCD и ViSQOL. Использовались реалистичные данные речи, а также сравнение с несколькими современными системами кодирования речи. Результаты показали, что предложенная система достигает почти одинакового качества с лучшими готовыми решениями, при этом значительно упрощая архитектуру и сокращая затраты ресурсов на обучение и время работы. ## Значимость Предложенная модель нейронного кодирования речи открывает новые возможности для разработки низкозадержанных, высококачественных систем в реальном времени. Она имеет широкие перспективы применения в телекоммуникационных системах, видеосвязи и устройствах беспроводной связи. Благодаря открытому коду и простоте интеграции, она может стать базой для дальнейших исследований и усовершенствований в области кодирования звука. ## Выводы Опубликованная работа доказывает, что простой одноэтажный подход к кодированию mel-спектрограмм может дать одинаковое, а иногда и лучшее качество аудио в сравнении с сложными RVQ-системами. Этот подход является эффективным инструментом для построения будущих низкозадержанных систем нейронной речи. Будущие исследования будут сконцентрированы на улучшении качества звука при уменьшении потребления вычислительных ресурсов.

Abstract

We present a neural speech codec that challenges the need for complex residual vector quantization (RVQ) stacks by introducing a simpler, single-stage quantization approach. Our method operates directly on the mel-spectrogram, treating it as a 2D data and quantizing non-overlapping 4x4 patches into a single, shared codebook. This patchwise design simplifies the architecture, enables low-latency streaming, and yields a discrete latent grid. To ensure high-fidelity synthesis, we employ a late-stage adversarial fine-tuning for the VQ-VAE and train a HiFi-GAN vocoder from scratch on the codec's reconstructed spectrograms. Operating at approximately 7.5 kbits/s for 16 kHz speech, our system was evaluated against several state-of-the-art neural codecs using objective metrics such as STOI, PESQ, MCD, and ViSQOL. The results demonstrate that our simplified, non-residual architecture achieves competitive perceptual quality and intelligibility, validating it as an effective and open foundation for future low-latency codec designs.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Spectrogram Patch Codec: A 2D Block-Quantized VQ-VAE and HiFi-GAN for Neural Speech Coding

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

SP-MCQA: Evaluating Intelligibility of TTS Beyond the Word Level

emg2speech: synthesizing speech from electromyography using self-supervised spee...

STAR-Bench: Probing Deep Spatio-Temporal Reasoning as Audio 4D Intelligence

ISA-Bench: Benchmarking Instruction Sensitivity for Large Audio Language Models

XLSR-Kanformer: A KAN-Intergrated model for Synthetic Speech Detection

Навигация