SpectroStream: A Versatile Neural Codec for General Audio

2508.05207v1 cs.SD, cs.AI, eess.AS 2025-08-09
Авторы:

Yunpeng Li, Kehang Han, Brian McWilliams, Zalan Borsos, Marco Tagliasacchi

Резюме на русском

## КОНТЕКСТ И ПРОБЛЕМАТИКА Развитие технологий кодирования и сжатия звука является ключевым для эффективной передачи, хранения и воспроизведения аудиоконтента. Существующие методы, такие как традиционные кодеки, хорошо справляются со сжатием низкочастотных монофонических аудиоданных, однако сталкиваются с значительными ограничениями при работе с высококачественным полнополосным стерео-звуком. Требования к качеству воспроизведения, особенно в областях стереофонической музыки и мультиканального аудио, постоянно растут, что создает потребность в более продвинутых решениях. Одной из основных проблем является необходимость достижения высокого качества воспроизведения при ограниченном битрейте, особенно при кодировании мультиканального звука, где необходимо сохранять как высокую тональность каждого канала, так и консистентность фазовой связности между каналами. SpectroStream предлагается как решение для этих проблем. Он расширяет возможности существующих кодеков, таких как SoundStream, предлагая поддержку высоких частот (до 48 kHz) и многоканального аудио, с целью предоставления качественного воспроизведения в условиях ограниченного битрейта. ## ПРЕДЛОЖЕННЫЙ МЕТОД SpectroStream использует нейронную архитектуру, опирающуюся на представление звука во временно-частотной области, что позволяет достичь значительно более высокого качества воспроизведения при работе с высокими частотами дискретизации. Основной новшеством является использование так называемой delayed-fusion стратегии, которая позволяет обрабатывать многоканальный звук. Эта стратегия работает путем отложенного объединения каналов на разных этапах обработки, что позволяет балансировать качество воспроизведения каждого канала и обеспечивать консистентность фазы между ними. Архитектура SpectroStream состоит из нескольких компонентов, включая модуль кодирования временно-частотных представлений, модуль сжатия и декодирования, а также модуль для обработки многоканального звука. Нейронная сеть обучается на данных с высоким битрейтом, что позволяет достичь высокого качества реконструкции при низких битрейтах. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Авторы провели ряд экспериментов, чтобы оценить качество SpectroStream по сравнению с другими кодеками. Использовались наборы данных, состоящие из высококачественного стерео-звука с частотой дискретизации 48 kHz. Результаты показали, что SpectroStream достигает высокого качества реконструкции, приближающегося к качеству несжатого аудио, при битрейтах от 4 до 16 kbps. В качестве основных метрик качества были использованы Mean Opinion Score (MOS) и другие субъективные метрики. SpectroStream показал значительно лучшие результаты по сравнению с другими нейронными кодеками, особенно при кодировании мультиканального звука. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ SpectroStream имеет широкий спектр применений в различных областях, где высококачественная передача и хранение мультиканального аудио имеют решающее значение. Это может быть применено в стриминговых сервисах, виртуальной и дополненной реальности, телекоммуникационных системах и многих других областях. Преимущества SpectroStream включают в себя высокое качество воспроизведения при низких битрейтах, эффективное кодирование многоканального звука, а также возможность работы с высокими частотами дискретизации. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ SpectroStream представляет собой значительный шаг вперед в области нейронных кодеков для аудио. Он обеспечивает высокое качество воспроизведения для полнополосного стерео-звука при ограниченных битрейтах, что делает его пригодным для многих практических приложений. В будущем, авторы предлагают расширить модель для поддержки более высоких частот дискретизации и более сложных многоканальных конфигураций. Также представляется интересным исследовать возможность применения других нейронных архитектур и методов оптимизации для дальнейшего улучшения качества.

Abstract

We propose SpectroStream, a full-band multi-channel neural audio codec. Successor to the well-established SoundStream, SpectroStream extends its capability beyond 24 kHz monophonic audio and enables high-quality reconstruction of 48 kHz stereo music at bit rates of 4--16 kbps. This is accomplished with a new neural architecture that leverages audio representation in the time-frequency domain, which leads to better audio quality especially at higher sample rate. The model also uses a delayed-fusion strategy to handle multi-channel audio, which is crucial in balancing per-channel acoustic quality and cross-channel phase consistency.

Ссылки и действия