FuseCodec: Semantic-Contextual Fusion and Supervision for Neural Codecs
2509.11425v1
cs.SD, cs.AI, cs.CL, eess.AS
2025-09-17
Авторы:
Md Mubtasim Ahasan, Rafat Hasan Khan, Tasnim Mohiuddin, Aman Chadha, Tariq Iqbal, M Ashraful Amin, Amin Ahsan Ali, Md Mofijul Islam, A K M Mahbubur Rahman
Резюме на русском
#### Контекст
Современные нейронные кодеки (neural codecs) играют ключевую роль в обработке звука, обеспечивая эффективный сжатий и декодирования звуковых сигналов. Однако большинство существующих кодеков сосредоточены на трансляции низкоуровневых акустических особенностей, пропуская важные семантические и контекстуальные признаки, которые являются важной частью человеческого языка. Этот аспект особенно важен для решения проблем, таких как транскрипция речи и генерация текста. Несмотря на попытки интегрировать семантические и контекстуальные представления в традиционные кодеки, эффективное сочетание этих представлений остается значительной технической проблемой. Мы предлагаем FuseCodec, который адресует эти проблемы, объединяя акустические, семантические и контекстуальные представления в единое целое с использованием глобальной ведомости и кросс-модального выравнивания.
#### Метод
FuseCodec основывается на трёх основных компонентах, которые позволяют эффективно объединять и управлять семантическими и контекстуальными представлениями. (i) **Latent Representation Fusion**: это техника позволяет интегрировать семантические и контекстуальные фичи непосредственно в пространство латентного представления кодека. Это способствует созданию более глубокого и единообразного представления речи. (ii) **Global Semantic-Contextual Supervision**: в данной технике используется глобальное пулинг знаков, которое позволяет сопоставлять контекстуальные и семантические представления, что улучшает временную консистентность и кросс-модальное выравнивание. (iii) **Temporally Aligned Contextual Supervision**: данный метод синхронизирует контекстуальные представления и звуковые токены в рамках локального окна, обеспечивая точное, лексические и фонетические соответствия. Эти компоненты вместе способствуют улучшению токенизации речи и его применимости в различных задачах.
#### Результаты
Мы провели эксперименты на звуковых данных LibriSpeech, сравнив FuseCodec с трёх современных кодеками: EnCodec, SpeechTokenizer и DAC. FuseCodec показал значительное превосходство в нескольких ключевых метриках, включая точность транскрипции, читабельность, интеллектуальность, и гармонию голоса. Эмпирические результаты демонстрируют, что FuseCodec эффективно использует семантические и контекстуальные признаки для улучшения общей точности и качества транскрипции. Дополнительно, мы представили FuseCodec-TTS, показав его применимость к нулевой-срабатыванию речи (zero-shot speech synthesis). Физические модели и код доступны на GitHub по адресу: [https://github.com/mubtasimahasan/FuseCodec](https://github.com/mubtasimahasan/FuseCodec).
#### Значимость
FuseCodec обеспечивает устойчивое объединение сем
Abstract
Speech tokenization enables discrete representation and facilitates speech
language modeling. However, existing neural codecs capture low-level acoustic
features, overlooking the semantic and contextual cues inherent to human
speech. While recent efforts introduced semantic representations from
self-supervised speech models or incorporated contextual representations from
pre-trained language models, challenges remain in aligning and unifying the
semantic and contextual representations. We introduce FuseCodec, which unifies
acoustic, semantic, and contextual representations through strong cross-modal
alignment and globally informed supervision. We propose three complementary
techniques: (i) Latent Representation Fusion, integrating semantic and
contextual features directly into the encoder latent space for robust and
unified representation learning; (ii) Global Semantic-Contextual Supervision,
supervising discrete tokens with globally pooled and broadcasted
representations to enhance temporal consistency and cross-modal alignment; and
(iii) Temporally Aligned Contextual Supervision, strengthening alignment by
dynamically matching contextual and speech tokens within a local window for
fine-grained token-level supervision. We further introduce FuseCodec-TTS,
demonstrating our methodology's applicability to zero-shot speech synthesis.
Empirically, FuseCodec achieves state-of-the-art performance in LibriSpeech,
surpassing EnCodec, SpeechTokenizer, and DAC in transcription accuracy,
perceptual quality, intelligibility, and speaker similarity. Results highlight
the effectiveness of contextually and semantically guided tokenization for
speech tokenization and downstream tasks. Code and pretrained models are
available at https://github.com/mubtasimahasan/FuseCodec.