SpectroStream: A Versatile Neural Codec for General Audio
2508.05207v1
cs.SD, cs.AI, eess.AS
2025-08-09
Авторы:
Yunpeng Li, Kehang Han, Brian McWilliams, Zalan Borsos, Marco Tagliasacchi
Резюме на русском
## КОНТЕКСТ И ПРОБЛЕМАТИКА
Развитие технологий кодирования и сжатия звука является ключевым для эффективной передачи, хранения и воспроизведения аудиоконтента. Существующие методы, такие как традиционные кодеки, хорошо справляются со сжатием низкочастотных монофонических аудиоданных, однако сталкиваются с значительными ограничениями при работе с высококачественным полнополосным стерео-звуком. Требования к качеству воспроизведения, особенно в областях стереофонической музыки и мультиканального аудио, постоянно растут, что создает потребность в более продвинутых решениях. Одной из основных проблем является необходимость достижения высокого качества воспроизведения при ограниченном битрейте, особенно при кодировании мультиканального звука, где необходимо сохранять как высокую тональность каждого канала, так и консистентность фазовой связности между каналами.
SpectroStream предлагается как решение для этих проблем. Он расширяет возможности существующих кодеков, таких как SoundStream, предлагая поддержку высоких частот (до 48 kHz) и многоканального аудио, с целью предоставления качественного воспроизведения в условиях ограниченного битрейта.
## ПРЕДЛОЖЕННЫЙ МЕТОД
SpectroStream использует нейронную архитектуру, опирающуюся на представление звука во временно-частотной области, что позволяет достичь значительно более высокого качества воспроизведения при работе с высокими частотами дискретизации. Основной новшеством является использование так называемой delayed-fusion стратегии, которая позволяет обрабатывать многоканальный звук. Эта стратегия работает путем отложенного объединения каналов на разных этапах обработки, что позволяет балансировать качество воспроизведения каждого канала и обеспечивать консистентность фазы между ними.
Архитектура SpectroStream состоит из нескольких компонентов, включая модуль кодирования временно-частотных представлений, модуль сжатия и декодирования, а также модуль для обработки многоканального звука. Нейронная сеть обучается на данных с высоким битрейтом, что позволяет достичь высокого качества реконструкции при низких битрейтах.
## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ
Авторы провели ряд экспериментов, чтобы оценить качество SpectroStream по сравнению с другими кодеками. Использовались наборы данных, состоящие из высококачественного стерео-звука с частотой дискретизации 48 kHz. Результаты показали, что SpectroStream достигает высокого качества реконструкции, приближающегося к качеству несжатого аудио, при битрейтах от 4 до 16 kbps.
В качестве основных метрик качества были использованы Mean Opinion Score (MOS) и другие субъективные метрики. SpectroStream показал значительно лучшие результаты по сравнению с другими нейронными кодеками, особенно при кодировании мультиканального звука.
## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ
SpectroStream имеет широкий спектр применений в различных областях, где высококачественная передача и хранение мультиканального аудио имеют решающее значение. Это может быть применено в стриминговых сервисах, виртуальной и дополненной реальности, телекоммуникационных системах и многих других областях. Преимущества SpectroStream включают в себя высокое качество воспроизведения при низких битрейтах, эффективное кодирование многоканального звука, а также возможность работы с высокими частотами дискретизации.
## ВЫВОДЫ И ПЕРСПЕКТИВЫ
SpectroStream представляет собой значительный шаг вперед в области нейронных кодеков для аудио. Он обеспечивает высокое качество воспроизведения для полнополосного стерео-звука при ограниченных битрейтах, что делает его пригодным для многих практических приложений. В будущем, авторы предлагают расширить модель для поддержки более высоких частот дискретизации и более сложных многоканальных конфигураций. Также представляется интересным исследовать возможность применения других нейронных архитектур и методов оптимизации для дальнейшего улучшения качества.
Abstract
We propose SpectroStream, a full-band multi-channel neural audio codec.
Successor to the well-established SoundStream, SpectroStream extends its
capability beyond 24 kHz monophonic audio and enables high-quality
reconstruction of 48 kHz stereo music at bit rates of 4--16 kbps. This is
accomplished with a new neural architecture that leverages audio representation
in the time-frequency domain, which leads to better audio quality especially at
higher sample rate. The model also uses a delayed-fusion strategy to handle
multi-channel audio, which is crucial in balancing per-channel acoustic quality
and cross-channel phase consistency.
Ссылки и действия
Дополнительные ресурсы: