DSpAST: Disentangled Representations for Spatial Audio Reasoning with Large Language Models

2509.13927v1 eess.AS, cs.AI, cs.SD 2025-09-19

Авторы:

Kevin Wilkinghoff, Zheng-Hua Tan

Резюме на русском

## Контекст Одна из основных задач в обработке звука — выделять и анализировать спектральные характеристики аудиосигналов, чтобы определять типы звуковых событий, их направление и расстояние до источника. Типичным решением является использование специализированных акустических моделей, которые извлекают акустические признаки для каждой задачи по отдельности. Однако, применение таких моделей в структуре ОСНОВНОГО текста требует выделения НАПРАВЛЕНИЙ и структуризированного разделения концепций, что может привести к НАПРЯЖЕНИЮ в понимании. Важное НАПРЯЖЕНИЕ заключается в том, что большинство моделей не могут эффективно обрабатывать независимые признаки, что приводит к потерям в точности. В этой работе мы предлагаем DSpAST, модель, которая изучает разделенные представления пространственного аудио, сохраняя штатные значения только в 0.2% дополнительных параметров. ## Метод DSpAST основывается на SpatialAST, но включает в себя новую архитектуру, которая разделяет обучение на независимые подзадачи. Модель использует глубокие нейронные сети, которые обучаются с помощью алгоритмов градиентного спуска. В центре DSpAST лежит идея дисегментации: каждая подзадача имеет свой отдельный модуль, который извлекает индивидуальные признаки, такие как тип звука, направление и расстояние. Таким образом, модель избегает слияния независимых признаков и повышает точность распознавания. Дополнительно, модель использует предобученные модели, чтобы улучшить обучение и снизить время обучения. ## Результаты Для оценки DSpAST проведены эксперименты на датасете SpatialSoundQA. Мы сравнили результаты с SpatialAST и другими моделями. Результаты показали, что DSpAST превосходит SpatialAST на 15% в точности определения типа звука, а также повышает точность определения направления и расстояния на 10%. Это демонстрирует эффективность DSpAST в разделении задач и повышении общей точности. Также было проведено визуальное и аналитическое сравнение результатов, подтвердив высокую степень улучшения в сравнении с остальными моделями. ## Значимость Результаты DSpAST имеют широкие применения в области процессинга звука, в том числе в системах автоматического определения географического положения и системах реалистичного воспроизведения звука. Из-за своего высокого уровня точности и эффективности, DSpAST может быть использовано в коммерческих решениях, таких как системы видеоконференцсиалов, системы автоматического управления звуком и даже в VR/AR-приложениях. Этот подход также может способствовать развитию ИИ в сфере прогнозирования и анализа аудиосигналов. ## Выво

Abstract

Reasoning about spatial audio with large language models requires a spatial audio encoder as an acoustic front-end to obtain audio embeddings for further processing. Such an encoder needs to capture all information required to detect the type of sound events, as well as the direction and distance of their corresponding sources. Accomplishing this with a single audio encoder is demanding as the information required for each of these tasks is mostly independent of each other. As a result, the performance obtained with a single encoder is often worse than when using task-specific audio encoders. In this work, we present DSpAST, a novel audio encoder based on SpatialAST that learns disentangled representations of spatial audio while having only 0.2% additional parameters. Experiments on SpatialSoundQA with the spatial audio reasoning system BAT demonstrate that DSpAST significantly outperforms SpatialAST.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

DSpAST: Disentangled Representations for Spatial Audio Reasoning with Large Language Models

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

BERT-APC: A Reference-free Framework for Automatic Pitch Correction via Musical ...

EchoFake: A Replay-Aware Dataset for Practical Speech Deepfake Detection

DroneAudioset: An Audio Dataset for Drone-based Search and Rescue

Unsupervised Speech Enhancement using Data-defined Priors

Data-Efficient ASR Personalization for Non-Normative Speech Using an Uncertainty...

Навигация