Spectrogram Patch Codec: A 2D Block-Quantized VQ-VAE and HiFi-GAN for Neural Speech Coding
2509.02244v1
cs.SD, cs.CL, eess.AS
2025-09-05
Авторы:
Luis Felipe Chary, Miguel Arjona Ramirez
Резюме на русском
## Контекст
Проблема неэффективности и высокой сложности существующих систем нейронного кодирования речи лежит в основе данных исследований. Традиционные подходы, такие как residual vector quantization (RVQ), требуют сложной архитектуры и значительных вычислительных ресурсов. Это ставит под сомнение их пригодность для реализации в режиме низкой задержки, необходимого для реального времени в телекоммуникационных системах. Данное исследование адресует эту проблему, предлагая простой, одноэтажный подход к кодированию спектрограмм, который упрощает архитектуру и обеспечивает высокую производительность.
## Метод
Предлагаемый подход основывается на векторном квантизаторе типа VQ-VAE, но отличается упрощенной архитектурой. Он работает напрямую с mel-спектрограмой, разбивая ее на непересекающиеся 4x4 патчи, которые затем кодируются в едином общем кодексе. Для обеспечения высокого качества реконструкции звука в данной системе используется гибридный подход: в качестве генератора звука используется HiFi-GAN, который обучается заполнить дискретную структуру полученного латентного пространства. Этот вариант позволяет получить высококачественные аудиосигналы с низким затратом вычислительных ресурсов.
## Результаты
Для оценки эффективности предложенного подхода проведены многочисленные эксперименты с использованием различных метрик качества, таких как STOI, PESQ, MCD и ViSQOL. Использовались реалистичные данные речи, а также сравнение с несколькими современными системами кодирования речи. Результаты показали, что предложенная система достигает почти одинакового качества с лучшими готовыми решениями, при этом значительно упрощая архитектуру и сокращая затраты ресурсов на обучение и время работы.
## Значимость
Предложенная модель нейронного кодирования речи открывает новые возможности для разработки низкозадержанных, высококачественных систем в реальном времени. Она имеет широкие перспективы применения в телекоммуникационных системах, видеосвязи и устройствах беспроводной связи. Благодаря открытому коду и простоте интеграции, она может стать базой для дальнейших исследований и усовершенствований в области кодирования звука.
## Выводы
Опубликованная работа доказывает, что простой одноэтажный подход к кодированию mel-спектрограмм может дать одинаковое, а иногда и лучшее качество аудио в сравнении с сложными RVQ-системами. Этот подход является эффективным инструментом для построения будущих низкозадержанных систем нейронной речи. Будущие исследования будут сконцентрированы на улучшении качества звука при уменьшении потребления вычислительных ресурсов.
Abstract
We present a neural speech codec that challenges the need for complex
residual vector quantization (RVQ) stacks by introducing a simpler,
single-stage quantization approach. Our method operates directly on the
mel-spectrogram, treating it as a 2D data and quantizing non-overlapping 4x4
patches into a single, shared codebook. This patchwise design simplifies the
architecture, enables low-latency streaming, and yields a discrete latent grid.
To ensure high-fidelity synthesis, we employ a late-stage adversarial
fine-tuning for the VQ-VAE and train a HiFi-GAN vocoder from scratch on the
codec's reconstructed spectrograms. Operating at approximately 7.5 kbits/s for
16 kHz speech, our system was evaluated against several state-of-the-art neural
codecs using objective metrics such as STOI, PESQ, MCD, and ViSQOL. The results
demonstrate that our simplified, non-residual architecture achieves competitive
perceptual quality and intelligibility, validating it as an effective and open
foundation for future low-latency codec designs.
Ссылки и действия
Дополнительные ресурсы: