FocalCodec-Stream: Streaming Low-Bitrate Speech Coding via Causal Distillation

2509.16195v1 cs.SD, cs.AI, cs.LG, eess.AS 2025-09-23

Авторы:

Luca Della Libera, Cem Subakan, Mirco Ravanelli

Резюме на русском

## Контекст Современные генерирующие аудиопротоколы широко используются в различных технологических областях, включая голосовое воспроизведение, умные динамики и синтез речи. Одним из ключевых элементов этих протоколов являются нейронные аудиокодеки, которые обеспечивают эффективную сжатие звуковых сигналов с минимальным ущербом качества. Несмотря на то, что некоторые аудиокодеки предлагают высокое качество воспроизведения и успешно применяются в статических сценариях, большинство из них не подходят для реального времени, так как не поддерживают потоковое кодирование. Это ограничение влечет за собой затруднения в использовании таких кодеков в потоковых голосовых сервисах, устройствах для синтеза речи и других приложениях, требующих чрезвычайно низкой задержки. ## Метод FocalCodec-Stream представляет собой новшество в области потокового аудиокодирования, основанное на фокальной модуляции. Этот кодек сжимает звуковые сигналы в один бинарный код, работая при битрейте от 0.55 до 0.80 кбит/с. Задержка, характерная для FocalCodec-Stream, ограничена 80 мс, что делает его применимым для реального времени. Основой методики является многоэтапное дистилляционное обучение с использованием WavLM. Для повышения качества реконструкции в рамках указанных ограничений позиционировано небольшое модульное рефинера, обеспечивающее баланс между качеством и задержкой. Таким образом, FocalCodec-Stream достигает соотношения между качеством, эффективностью и задержкой, которое отличает его от современных альтернатив. ## Результаты Исследования проводились на наборе данных звуков, включающих различные голоса и акустические условия. Результаты показали, что FocalCodec-Stream превосходит существующие потоковые кодеки в задачах реконструкции голоса и сохранения акцентов, даже при подвисании и небольшой задержке. Общий ряд экспериментов также подтвердил улучшение качества речевых признаков и уменьшение потерь в сигнале, сопоставимое с традиционными кодеками непотокового обеспечения. ## Значимость FocalCodec-Stream открывает новые возможности для развития реального времени в области голосового взаимодействия. Его можно применять в умных гаджетах, голосовых помощниках и видеоконференцсервисах, где низкая задержка критична. Преимуществоми является высокая эффективность в режиме потока, возможность применения в реальном времени, а также улучшение качества реконструкции. Этот подход может вести к развитию новых технологий в сфере звукового анализа, помочь в создании улучшенных методов управления голосовыми динамиками и в концепции "умных городов", где звуковые д

Abstract

Neural audio codecs are a fundamental component of modern generative audio pipelines. Although recent codecs achieve strong low-bitrate reconstruction and provide powerful representations for downstream tasks, most are non-streamable, limiting their use in real-time applications. We present FocalCodec-Stream, a hybrid codec based on focal modulation that compresses speech into a single binary codebook at 0.55 - 0.80 kbps with a theoretical latency of 80 ms. Our approach combines multi-stage causal distillation of WavLM with targeted architectural improvements, including a lightweight refiner module that enhances quality under latency constraints. Experiments show that FocalCodec-Stream outperforms existing streamable codecs at comparable bitrates, while preserving both semantic and acoustic information. The result is a favorable trade-off between reconstruction quality, downstream task performance, latency, and efficiency. Code and checkpoints will be released at https://github.com/lucadellalib/focalcodec.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

FocalCodec-Stream: Streaming Low-Bitrate Speech Coding via Causal Distillation

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Advancing Marine Bioacoustics with Deep Generative Models: A Hybrid Augmentation...

Learning Linearity in Audio Consistency Autoencoders via Implicit Regularization

Schrödinger Bridge Mamba for One-Step Speech Enhancement

Automatic Music Sample Identification with Multi-Track Contrastive Learning

Leveraging Whisper Embeddings for Audio-based Lyrics Matching

Навигация