NanoCodec: Towards High-Quality Ultra Fast Speech LLM Inference

2508.05835v1 eess.AS, cs.CL, cs.SD 2025-08-12

Авторы:

Edresson Casanova, Paarth Neekhara, Ryan Langman, Shehzeen Hussain, Subhankar Ghosh, Xuesong Yang, Ante Jukić, Jason Li, Boris Ginsburg

Резюме на русском

#### Контекст Large Language Models (LLMs) показали свою эффективность в обработке аудиоданных с помощью аудиокодеков, которые дискретизируют аудио в токены. Это позволяет применять техники языковых моделей к слову. Однако, существующие кодеки часто работают с высокими разрешениями (frame rate), что приводит к медленному обучению и выполнению моделей, особенно для систем autoregressive. Чтобы улучшить эффективность, становится все более актуальным развитие низкоразрешающих кодеков, которые уменьшают число операций авторегрессии, необходимых для создания одного секунды звука. В данной работе мы проводим анализ влияния разрешения, битрейта и каузальности на качество кодекса, чтобы привести в мир новую модель NanoCodec, которая обеспечивает высокое качество сжатия при том же frame rate (12.5 FPS). #### Метод Мы использовали широкий набор аудиосемплов для исследования влияния различных параметров кодеков на реконструкцию. Методы включали анализ битрейта, разрешения и структуры кодека. Наши эксперименты включали анализ качества реконструкции с помощью метрик, таких как Signal-to-Noise Ratio (SNR) и Perceptual Evaluation of Speech Quality (PESQ). Мы также использовали авторегрессионные модели для оценки качества запросов и реагирования на слова. Методы были оптимизированы с целью минимизации размера и времени обработки звука, при этом сохранив высокое качество реконструкции. #### Результаты Мы провели апробацию различных кодеков, включая NanoCodec, в условиях разных frame rate, bitrate и каузальности. Результаты показали, что NanoCodec демонстрирует высокое качество реконструкции при frame rate 12.5 FPS с битрейтом, сопоставимым с современными кодеками. Он также показал лучшие результаты в PESQ и SNR по сравнению с другими кодеками в низкоразрешающих условиях. Эти результаты были достигнуты благодаря специально разработанной архитектуре, которая оптимизирует сжатие без потерь существующих полезных данных. #### Значимость Наше исследование показывает, что NanoCodec может быть применено в различных областях, включая тренировку и интерпретацию Speech LLMs. Одним из основных преимуществ является уменьшение времени обучения и выполнения моделей, что может привести к меньшим затратам на ресурсы и ускорению разработки. Это также может быть критично для приложений, требующих реального времени, таких как автоматическая синтезированная речь и аудиозахват. NanoCodec также может быть применен в области компрессии аудиоданных для эффективной передачи и хранения. #### Выводы Мы привносим NanoCodec в качестве нового нормативного кодека для высокого качества и эффективной обработки речи. Наши находки показывают, что NanoCodec может улучшить производительность Speech LLMs, особенно в ситуа

Abstract

Large Language Models (LLMs) have significantly advanced audio processing by leveraging audio codecs to discretize audio into tokens, enabling the application of language modeling techniques to speech data. However, existing audio codecs often operate at high frame rates, leading to slow training and inference, particularly for autoregressive models. To address this, there is growing interest in low frame-rate audio codecs, which reduce the number of autoregressive steps required to generate one second of audio. In this paper, we conduct ablation studies to examine the impact of frame rate, bitrate, and causality on codec reconstruction quality. Based on our findings, we introduce NanoCodec, a state-of-the-art audio codec that achieves high-quality compression at just 12.5 frames per second (FPS). NanoCodec outperforms related works across various bitrate ranges, establishing a new benchmark for low-latency and efficient Speech LLM training and inference.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

NanoCodec: Towards High-Quality Ultra Fast Speech LLM Inference

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

CASTELLA: Long Audio Dataset with Captions and Temporal Boundaries

VoiceCraft-X: Unifying Multilingual, Voice-Cloning Speech Synthesis and Speech E...

Pruning as Regularization: Sensitivity-Aware One-Shot Pruning in ASR

Quantizing Whisper-small: How design choices affect ASR performance

LibriConvo: Simulating Conversations from Read Literature for ASR and Diarizatio...

Навигация