📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 Advancing Marine Bioacoustics with Deep Generative Models: A Hybrid Augmentation Strategy for Southern Resident Killer Whale Detection

2025-12-01

Авторы:

Bruno Padovese, Fabio Frazao, Michael Dowd, Ruth Joy

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Automated detection and classification of marine mammals vocalizations is critical for conservation and management efforts but is hindered by limited annotated datasets and the acoustic complexity of real-world marine environments. Data augmentation has proven to be an effective strategy to address this limitation by increasing dataset diversity and improving model generalization without requiring additional field data. However, most augmentation techniques used to date rely on effective but rel...

ID: 2511.21872v1 cs.SD, cs.AI, cs.LG, eess.AS

arXiv PDF

📄 Learning Linearity in Audio Consistency Autoencoders via Implicit Regularization

2025-10-29

Авторы:

Bernardo Torres, Manuel Moussallam, Gabriel Meseguer-Brocal

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Audio autoencoders learn useful, compressed audio representations, but their non-linear latent spaces prevent intuitive algebraic manipulation such as mixing or scaling. We introduce a simple training methodology to induce linearity in a high-compression Consistency Autoencoder (CAE) by using data augmentation, thereby inducing homogeneity (equivariance to scalar gain) and additivity (the decoder preserves addition) without altering the model's architecture or loss function. When trained with ou...

ID: 2510.23530v1 cs.SD, cs.AI, cs.LG, eess.AS

arXiv PDF

📄 Schrödinger Bridge Mamba for One-Step Speech Enhancement

2025-10-22

Авторы:

Jing Yang, Sirui Wang, Chao Wu, Fan Fan

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

We propose Schr\"odinger Bridge Mamba (SBM), a new concept of training-inference framework motivated by the inherent compatibility between Schr\"odinger Bridge (SB) training paradigm and selective state-space model Mamba. We exemplify the concept of SBM with an implementation for generative speech enhancement. Experiments on a joint denoising and dereverberation task using four benchmark datasets demonstrate that SBM, with only 1-step inference, outperforms strong baselines with 1-step or iterat...

ID: 2510.16834v1 cs.SD, cs.AI, cs.LG, eess.AS

arXiv PDF

📄 Automatic Music Sample Identification with Multi-Track Contrastive Learning

2025-10-15

Авторы:

Alain Riou, Joan Serrà, Yuki Mitsufuji

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Sampling, the technique of reusing pieces of existing audio tracks to create new music content, is a very common practice in modern music production. In this paper, we tackle the challenging task of automatic sample identification, that is, detecting such sampled content and retrieving the material from which it originates. To do so, we adopt a self-supervised learning approach that leverages a multi-track dataset to create positive pairs of artificial mixes, and design a novel contrastive learn...

ID: 2510.11507v1 cs.SD, cs.AI, cs.LG, eess.AS

arXiv PDF

📄 Leveraging Whisper Embeddings for Audio-based Lyrics Matching

2025-10-11

Авторы:

Eleonora Mancini, Joan Serrà, Paolo Torroni, Yuki Mitsufuji

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Audio-based lyrics matching can be an appealing alternative to other content-based retrieval approaches, but existing methods often suffer from limited reproducibility and inconsistent baselines. In this work, we introduce WEALY, a fully reproducible pipeline that leverages Whisper decoder embeddings for lyrics matching tasks. WEALY establishes robust and transparent baselines, while also exploring multimodal extensions that integrate textual and acoustic features. Through extensive experiments ...

ID: 2510.08176v1 cs.SD, cs.AI, cs.LG, eess.AS

arXiv PDF

📄 Pitch-Conditioned Instrument Sound Synthesis From an Interactive Timbre Latent Space

2025-10-08

Авторы:

Christian Limberg, Fares Schulz, Zhe Zhang, Stefan Weinzierl

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

This paper presents a novel approach to neural instrument sound synthesis using a two-stage semi-supervised learning framework capable of generating pitch-accurate, high-quality music samples from an expressive timbre latent space. Existing approaches that achieve sufficient quality for music production often rely on high-dimensional latent representations that are difficult to navigate and provide unintuitive user experiences. We address this limitation through a two-stage training paradigm: fi...

ID: 2510.04339v1 cs.SD, cs.AI, cs.LG, eess.AS, eess.SP

arXiv PDF

📄 SAGE-Music: Low-Latency Symbolic Music Generation via Attribute-Specialized Key-Value Head Sharing

2025-10-04

Авторы:

Jiaye Tan, Haonan Luo, Linfeng Song, Shuaiqi Chen, Yishan Lyu, Zian Zhong, Roujia Wang, Daniel Jiang, Haoran Zhang, Jiaming Bai, Haoran Cheng, Q. Vera Liao, Hao-Wen Dong

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Low-latency symbolic music generation is essential for real-time improvisation and human-AI co-creation. Existing transformer-based models, however, face a trade-off between inference speed and musical quality. Traditional acceleration techniques such as embedding pooling significantly degrade quality, while recently proposed Byte Pair Encoding (BPE) methods - though effective on single-track piano data - suffer large performance drops in multi-track settings, as revealed by our analysis. We pro...

ID: 2510.00395v1 cs.SD, cs.AI, cs.LG, eess.AS

arXiv PDF

📄 Sparse Autoencoders Make Audio Foundation Models more Explainable

2025-10-01

Авторы:

Théo Mariotte, Martin Lebourdais, Antonio Almudévar, Marie Tahon, Alfonso Ortega, Nicolas Dugué

#### Контекст Аудио-предварительно обученные модели широко используются для решения задач в области обработки речи, детекции звуковых событий и исследования музыкальной информации. Однако, представления, извлеченные этими моделями, часто остаются непонятными. Анализ таких представлений ограничивается линейным пробным подходом, что не позволяет получить полное представление о том, что эти модели действительно "видят" в звуковых данных. Это приводит к проблемам в их использовании для задач, требующих транспарентности и объяснимости решений. Наша мотивация состоит в том, чтобы раскрыть эти представления, обеспечив более четкое понимание процесса обучения без надзора и улучшить понимание факторов, которые вкладываются в звуковые представления. #### Метод Мы предлагаем использовать **Sparse Autoencoders (SAEs)** для анализа представлений, извлеченных аудио-предварительно обученными моделями. SAEs — это архитектуры нейронных сетей, которые научились сокращать размерность входных данных, сохраняя основные черты информации. В нашем случае, мы используем SAEs для декомпозиции представлений, извлеченных аудио-предварительно обученными моделями. Эти SAEs позволяют идентифицировать важные факторы, включенные в представления, и дают возможность "разглядеть" то, что именно сеть учится. Мы также применяем этот подход к классификации техники пени, чтобы демонстрировать пользу SAEs в практических сценариях. #### Результаты Мы проводим эксперименты с использованием различных аудио-предварительно обученных моделей, таких как Wav2Vec и HuBERT. Мы показываем, что SAEs могут декомпозировать что-то, что модели "видят" в звуковых данных, в том числе влияние таких факторов, как интонация, ритм и структура пение. Эти результаты показывают, что SAEs действительно могут улучшить четкость и понимание того, что происходит внутри аудио-предварительно обученных моделей. Мы также показываем, что SAEs могут улучшить разделяемость важных вокальных атрибутов, что делает их эффективным инструментом для разбора звуковых представлений. #### Значимость Мы видим применение этого подхода во многих областях, включая классификацию звуковых событий, обработку речи и стилизацию музыки. Однако, главное преимущество SAEs заключается в том, что они позволяют получить более транспарентные инсайты из аудио-предварительно обученных моделей, что в свою очередь может сделать такие модели более доступными для применения в реальной жизни. Эта транспарентность не только улучшает понимание моделей, но и может помочь в разработке более эффективных моделей в будущем. #### Выводы Мы демонстрируем, что SAEs могут с

Annotation:

Audio pretrained models are widely employed to solve various tasks in speech processing, sound event detection, or music information retrieval. However, the representations learned by these models are unclear, and their analysis mainly restricts to linear probing of the hidden representations. In this work, we explore the use of Sparse Autoencoders (SAEs) to analyze the hidden representations of pretrained models, focusing on a case study in singing technique classification. We first demonstrate...

ID: 2509.24793v1 cs.SD, cs.AI, cs.LG, eess.AS

arXiv PDF

📄 Thinking While Listening: Simple Test Time Scaling For Audio Classification

2025-09-26

Авторы:

Prateek Verma, Mert Pilanci

## Контекст Аудиоклассификация — это важная задача в области обработки звуковых данных, которая находит применение в многочисленных приложениях, таких как звуковой анализ, речевые ассистенты, автоматическая распознавание речи и анализ сенсорных сетей. Однако существуют сложности, связанные с ограниченной точностью и способностью существующих моделей обрабатывать сложные аудиоданные. Недавние развития в области языковых моделей, особенно те, что связаны с улучшением "мыслительных" способностей, показали, что модели могут быть обучены не только просто классифицировать, но и "думать" над задачами, что позволяет повысить точность классификации и улучшить понимание категорий. Наша мотивация заключается в исследовании способов интегрировать такие "мыслительные" процессы в модели для аудиоданных, а также в разработке архитектур, которые могут обеспечить эффективность в реальном времени, в том числе тест-тайм скалированием. ## Метод Мы предлагаем фреймворк, который включает в себя несколько ключевых элементов: (i) интеграция "мыслительных" процессов в модели классификации аудио, чтобы они могли выполнять рациональные выводы над категориями; (ii) разработка архитектуры, которая поддерживает "мыслительные" процессы во время тестирования (тест-тайм скалирование); (iii) эффективное использование моделей с меньшим количеством параметров для реализации этих возможностей. Мы используем методы тест-тайм скалирования, где модель производит несколько повторных проходов по тестовым данным с различными инициализациями, что позволяет повысить точность. Мы также рассматриваем два открытых текстовых модели размышления — GPT-OSS-20B и Qwen3-14B — для сравнения с нашей моделью. ## Результаты Мы проводим эксперименты, используя широкий набор данных, включая AudioSet и ESC-50, для оценки нашей модели. Мы сравниваем наше решение с существующими моделями, включая GPT-OSS-20B и Qwen3-14B. Наши эксперименты показывают, что модель, использующая тест-тайм скалирование, показывает значительные повышения точности в классификации аудио по сравнению с стандартными моделями. Мы также показываем, что модели с меньшим количеством параметров, такие как retrained GPT-2, могут превосходить в показателях точности модели с миллиардами параметров, таких как GPT-OSS-20B, благодаря ретраинированию только входного вектора. ## Значимость Наш фреймворк может применяться в различных сферах, таких как автоматическая распознавание речи (ASR), анализ сенсорных сетей, аудио аналитика для робототехники и даже в области здравоохранения (например, звуковые сигналы для диаг

Annotation:

We propose a framework that enables neural models to "think while listening" to everyday sounds, thereby enhancing audio classification performance. Motivated by recent advances in the reasoning capabilities of large language models, we address two central questions: (i) how can thinking be incorporated into existing audio classification pipelines to enable reasoning in the category space and improve performance, and (ii) can a new architecture be designed from the ground up to support both thin...

ID: 2509.19676v1 cs.SD, cs.AI, cs.LG, eess.AS

arXiv PDF

📄 Cross-Attention with Confidence Weighting for Multi-Channel Audio Alignment

2025-09-24

Авторы:

Ragib Amin Nihal, Benjamin Yen, Takeshi Ashizawa, Kazuhiro Nakadai

## Контекст **Multi-channel audio alignment** является важной задачей в области биоакустического мониторинга, пространственной аудиосистемы и акустической локализации. Однако существующие методы часто сталкиваются с проблемами, такими как **nonlinear clock drift** (нелинейное смещение часов) и невозможность оценивать **uncertainty** (неопределенность). Традиционные методы, такие как **cross-correlation** и **Dynamic Time Warping (DTW)**, предполагают простые шаблоны смещения и не предоставляют меры надежности. Несмотря на то, что **deep learning models** позволяют находить более точные решения, они в основном рассматривают задачу синхронизации как **binary classification task** (задачу бинарной классификации), не учитывая зависимости между каналами и неопределенность решений. Мы предлагаем **Cross-Attention with Confidence Weighting**, метод, который объединяет **cross-attention mechanisms** и **confidence-weighted scoring** для улучшения многоканальной синхронизации аудио. Это решение позволяет улучшить точность и надежность синхронизации в различных критически важных приложениях. ## Метод Мы расширили **BEATs encoders** (BEATs - Bidirectional Encoder Attention Transformer), добавив **cross-attention layers** для моделирования взаимосвязей между каналами. Эти слои позволяют учитывать характеристики и хронологические зависимости данных. Далее, мы разработали **confidence-weighted scoring function**, которая использует **full prediction distribution** (полное распределение предсказаний) вместо бинарного трешхолда. Эта функция позволяет оценивать **uncertainty** и принимать во внимание все возможные результаты. Наша реализация использует **probabilistic temporal alignment** (пробабилистическую временную синхронизацию), устраняя необходимость в чистом точном решении и предоставляя **confidence scores** (оценки надежности). Эта модель позволяет решать задачи синхронизации в рамках биоакустических приложений, но также может быть применена к другим задачам многоканальной аудиосинхронизации, где надежность и уверенность в результатах критически важны. ## Результаты Мы проверили нашу модель на различных датасетах, включая **ARU** и **zebra finch**. На **ARU dataset**, наш метод показал **0.14 Mean Squared Error (MSE)**, что составляет **77%** снижения по сравнению с базовым глубокому обучению (**deep learning baseline**), который показал **0.58 MSE**. На датасете **zebra finch** наш результат составил **0.45 MSE**, что составляет **18%** снижения по сравнению с базовым результатом. На **BioDCASE 2025 Task 1 challenge**, наша модель получила **0.30 MSE**, что является **наилучшим результатом** среди участников. Эти результаты демонстрируют высокую точность и надежность нашего подхода в синхронизации многоканального аудио. Мы также продемонстрировали, что наш метод позволяет улучшить **probabilistic temporal alignment**, что делает его применимым в ситуациях, где требуется уверенность в результатах. ## Значимость Наш метод может применяться в **bioacoustic

Annotation:

Multi-channel audio alignment is a key requirement in bioacoustic monitoring, spatial audio systems, and acoustic localization. However, existing methods often struggle to address nonlinear clock drift and lack mechanisms for quantifying uncertainty. Traditional methods like Cross-correlation and Dynamic Time Warping assume simple drift patterns and provide no reliability measures. Meanwhile, recent deep learning models typically treat alignment as a binary classification task, overlooking inter...

ID: 2509.16926v1 cs.SD, cs.AI, cs.LG, eess.AS

arXiv PDF

Показано 1 - 10 из 27 записей