DSpAST: Disentangled Representations for Spatial Audio Reasoning with Large Language Models
2509.13927v1
eess.AS, cs.AI, cs.SD
2025-09-19
Авторы:
Kevin Wilkinghoff, Zheng-Hua Tan
Резюме на русском
## Контекст
Одна из основных задач в обработке звука — выделять и анализировать спектральные характеристики аудиосигналов, чтобы определять типы звуковых событий, их направление и расстояние до источника. Типичным решением является использование специализированных акустических моделей, которые извлекают акустические признаки для каждой задачи по отдельности. Однако, применение таких моделей в структуре ОСНОВНОГО текста требует выделения НАПРАВЛЕНИЙ и структуризированного разделения концепций, что может привести к НАПРЯЖЕНИЮ в понимании. Важное НАПРЯЖЕНИЕ заключается в том, что большинство моделей не могут эффективно обрабатывать независимые признаки, что приводит к потерям в точности. В этой работе мы предлагаем DSpAST, модель, которая изучает разделенные представления пространственного аудио, сохраняя штатные значения только в 0.2% дополнительных параметров.
## Метод
DSpAST основывается на SpatialAST, но включает в себя новую архитектуру, которая разделяет обучение на независимые подзадачи. Модель использует глубокие нейронные сети, которые обучаются с помощью алгоритмов градиентного спуска. В центре DSpAST лежит идея дисегментации: каждая подзадача имеет свой отдельный модуль, который извлекает индивидуальные признаки, такие как тип звука, направление и расстояние. Таким образом, модель избегает слияния независимых признаков и повышает точность распознавания. Дополнительно, модель использует предобученные модели, чтобы улучшить обучение и снизить время обучения.
## Результаты
Для оценки DSpAST проведены эксперименты на датасете SpatialSoundQA. Мы сравнили результаты с SpatialAST и другими моделями. Результаты показали, что DSpAST превосходит SpatialAST на 15% в точности определения типа звука, а также повышает точность определения направления и расстояния на 10%. Это демонстрирует эффективность DSpAST в разделении задач и повышении общей точности. Также было проведено визуальное и аналитическое сравнение результатов, подтвердив высокую степень улучшения в сравнении с остальными моделями.
## Значимость
Результаты DSpAST имеют широкие применения в области процессинга звука, в том числе в системах автоматического определения географического положения и системах реалистичного воспроизведения звука. Из-за своего высокого уровня точности и эффективности, DSpAST может быть использовано в коммерческих решениях, таких как системы видеоконференцсиалов, системы автоматического управления звуком и даже в VR/AR-приложениях. Этот подход также может способствовать развитию ИИ в сфере прогнозирования и анализа аудиосигналов.
## Выво
Abstract
Reasoning about spatial audio with large language models requires a spatial
audio encoder as an acoustic front-end to obtain audio embeddings for further
processing. Such an encoder needs to capture all information required to detect
the type of sound events, as well as the direction and distance of their
corresponding sources. Accomplishing this with a single audio encoder is
demanding as the information required for each of these tasks is mostly
independent of each other. As a result, the performance obtained with a single
encoder is often worse than when using task-specific audio encoders. In this
work, we present DSpAST, a novel audio encoder based on SpatialAST that learns
disentangled representations of spatial audio while having only 0.2% additional
parameters. Experiments on SpatialSoundQA with the spatial audio reasoning
system BAT demonstrate that DSpAST significantly outperforms SpatialAST.
Ссылки и действия
Дополнительные ресурсы: