SoundCompass: Navigating Target Sound Extraction With Effective Directional Clue Integration In Complex Acoustic Scenes
2509.18561v1
eess.AS, cs.AI, cs.SD
2025-09-25
Авторы:
Dayun Choi, Jung-Woo Choi
Резюме на русском
## Контекст
Значительные усилия в области звуковой обработки направлены на решение проблемы выделения целевого звука (Target Sound Extraction, TSE) в сложной акустической среде. Целевой звук часто загрязняется другими акустическими сигналами, что снижает качество звука и затрудняет его анализ. Достижения в этой области могут применяться в сферах, таких как контроль звука, реалистичная имитация звуков, звуковые интерфейсы для виртуальных и аugmented реальностей, а также в медицинской диагностике. Однако существующие методы сталкиваются с ограничениями в том, что они неэффективно используют данные о направлении звука (DoA, Direction of Arrival) или недостаточно эффективно интегрируют эти данные, что приводит к потере тонкой спектральной информации. Это призвана решить SoundCompass, новая модель, которая предлагает инновационный подход к интеграции направленных спектральных классов.
## Метод
SoundCompass основывается на Spectral Pairwise INteraction (SPIN) module, который анализирует взаимосвязи между каналами в сложных спектрограммах. Благодаря этому модулю, модель может полностью сохранить геометрическую информацию в многоканальных сигналах. Данные о направлении звука (DoA) представлены в форме сферических гармоник (SH). Для интеграции этих данных спектральные классы и DoA объединяются в одном фреймворке, который использует ядро свертки для перекрывающихся поддиапазонов частот. Таким образом, модель удается сохранить тонкую спектральную информацию и эффективно использовать направленные сигналы. Эти данные же повторно используются в iterative refinement strategy, или Chain-of-Inference (CoI), которая повторяет процесс выделения звука, учитывая предыдущие результаты, улучшая точность и результаты.
## Результаты
Набор экспериментов проводился на соревновательной базе данных, включающей различные звуковые сигналы и сложные акустические сцены. Результаты показали, что SoundCompass превосходит существующие методы в целевом выделении звука. Это продемонстрировано с помощью метрик, таких как Signal-to-Distortion Ratio (SDR) и Source-to-Interference Ratio (SIR). Метод особенно эффективен в сценах с многоканальными сигналами и сложными интерфейсами, где предыдущие методы оказывались неэффективны. Это позволяет SoundCompass применяться в области аудио-визуальных систем, виртуальной и аugmented реальности, а также в звуковой диагностике.
## Значимость
SoundCompass предлагает новый подход к решению проблемы выделения целевого звука, сохраняя полную спектральную и направленную информацию. Его можно применять в сферах, где важно выделить звуковые сигналы в условиях шума и
Abstract
Recent advances in target sound extraction (TSE) utilize directional clues
derived from direction of arrival (DoA), which represent an inherent spatial
property of sound available in any acoustic scene. However, previous DoA-based
methods rely on hand-crafted features or discrete encodings, which lose
fine-grained spatial information and limit adaptability. We propose
SoundCompass, an effective directional clue integration framework centered on a
Spectral Pairwise INteraction (SPIN) module that captures cross-channel spatial
correlations in the complex spectrogram domain to preserve full spatial
information in multichannel signals. The input feature expressed in terms of
spatial correlations is fused with a DoA clue represented as spherical
harmonics (SH) encoding. The fusion is carried out across overlapping frequency
subbands, inheriting the benefits reported in the previous band-split
architectures. We also incorporate the iterative refinement strategy,
chain-of-inference (CoI), in the TSE framework, which recursively fuses DoA
with sound event activation estimated from the previous inference stage.
Experiments demonstrate that SoundCompass, combining SPIN, SH embedding, and
CoI, robustly extracts target sources across diverse signal classes and spatial
configurations.
Ссылки и действия
Дополнительные ресурсы: