📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 Leveraging Whisper Embeddings for Audio-based Lyrics Matching

2025-10-11

Авторы:

Eleonora Mancini, Joan Serrà, Paolo Torroni, Yuki Mitsufuji

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Audio-based lyrics matching can be an appealing alternative to other content-based retrieval approaches, but existing methods often suffer from limited reproducibility and inconsistent baselines. In this work, we introduce WEALY, a fully reproducible pipeline that leverages Whisper decoder embeddings for lyrics matching tasks. WEALY establishes robust and transparent baselines, while also exploring multimodal extensions that integrate textual and acoustic features. Through extensive experiments ...

ID: 2510.08176v1 cs.SD, cs.AI, cs.LG, eess.AS

arXiv PDF

📄 Sparse deepfake detection promotes better disentanglement

2025-10-09

Авторы:

Antoine Teissier, Marie Tahon, Nicolas Dugué, Aghilas Sini

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Due to the rapid progress of speech synthesis, deepfake detection has become a major concern in the speech processing community. Because it is a critical task, systems must not only be efficient and robust, but also provide interpretable explanations. Among the different approaches for explainability, we focus on the interpretation of latent representations. In such paper, we focus on the last layer of embeddings of AASIST, a deepfake detection architecture. We use a TopK activation inspired by ...

ID: 2510.05696v1 cs.SD, cs.AI, cs.LG

arXiv PDF

📄 Segment-Factorized Full-Song Generation on Symbolic Piano Music

2025-10-09

Авторы:

Ping-Yi Chen, Chih-Pin Tan, Yi-Hsuan Yang

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

We propose the Segmented Full-Song Model (SFS) for symbolic full-song generation. The model accepts a user-provided song structure and an optional short seed segment that anchors the main idea around which the song is developed. By factorizing a song into segments and generating each one through selective attention to related segments, the model achieves higher quality and efficiency compared to prior work. To demonstrate its suitability for human-AI interaction, we further wrap SFS into a web a...

ID: 2510.05881v1 cs.SD, cs.AI, cs.LG, cs.MM, eess.AS

arXiv PDF

📄 Pitch-Conditioned Instrument Sound Synthesis From an Interactive Timbre Latent Space

2025-10-08

Авторы:

Christian Limberg, Fares Schulz, Zhe Zhang, Stefan Weinzierl

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

This paper presents a novel approach to neural instrument sound synthesis using a two-stage semi-supervised learning framework capable of generating pitch-accurate, high-quality music samples from an expressive timbre latent space. Existing approaches that achieve sufficient quality for music production often rely on high-dimensional latent representations that are difficult to navigate and provide unintuitive user experiences. We address this limitation through a two-stage training paradigm: fi...

ID: 2510.04339v1 cs.SD, cs.AI, cs.LG, eess.AS, eess.SP

arXiv PDF

📄 SAGE-Music: Low-Latency Symbolic Music Generation via Attribute-Specialized Key-Value Head Sharing

2025-10-04

Авторы:

Jiaye Tan, Haonan Luo, Linfeng Song, Shuaiqi Chen, Yishan Lyu, Zian Zhong, Roujia Wang, Daniel Jiang, Haoran Zhang, Jiaming Bai, Haoran Cheng, Q. Vera Liao, Hao-Wen Dong

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Low-latency symbolic music generation is essential for real-time improvisation and human-AI co-creation. Existing transformer-based models, however, face a trade-off between inference speed and musical quality. Traditional acceleration techniques such as embedding pooling significantly degrade quality, while recently proposed Byte Pair Encoding (BPE) methods - though effective on single-track piano data - suffer large performance drops in multi-track settings, as revealed by our analysis. We pro...

ID: 2510.00395v1 cs.SD, cs.AI, cs.LG, eess.AS

arXiv PDF

📄 MARS: Audio Generation via Multi-Channel Autoregression on Spectrograms

2025-10-03

Авторы:

Eleonora Ristori, Luca Bindini, Paolo Frasconi

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Research on audio generation has progressively shifted from waveform-based approaches to spectrogram-based methods, which more naturally capture harmonic and temporal structures. At the same time, advances in image synthesis have shown that autoregression across scales, rather than tokens, improves coherence and detail. Building on these ideas, we introduce MARS (Multi-channel AutoRegression on Spectrograms), a framework that treats spectrograms as multi-channel images and employs channel multip...

ID: 2509.26007v1 cs.SD, cs.AI, cs.LG

arXiv PDF

📄 Representation-Based Data Quality Audits for Audio

2025-10-02

Авторы:

Alvaro Gonzalez-Jimenez, Fabian Gröger, Linda Wermelinger, Andrin Bürli, Iason Kastanis, Simone Lionetti, Marc Pouly

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Data quality issues such as off-topic samples, near duplicates, and label errors often limit the performance of audio-based systems. This paper addresses these issues by adapting SelfClean, a representation-to-rank data auditing framework, from the image to the audio domain. This approach leverages self-supervised audio representations to identify common data quality issues, creating ranked review lists that surface distinct issues within a single, unified process. The method is benchmarked on t...

ID: 2509.26291v1 cs.SD, cs.AI, cs.LG

arXiv PDF

📄 Sparse Autoencoders Make Audio Foundation Models more Explainable

2025-10-01

Авторы:

Théo Mariotte, Martin Lebourdais, Antonio Almudévar, Marie Tahon, Alfonso Ortega, Nicolas Dugué

#### Контекст Аудио-предварительно обученные модели широко используются для решения задач в области обработки речи, детекции звуковых событий и исследования музыкальной информации. Однако, представления, извлеченные этими моделями, часто остаются непонятными. Анализ таких представлений ограничивается линейным пробным подходом, что не позволяет получить полное представление о том, что эти модели действительно "видят" в звуковых данных. Это приводит к проблемам в их использовании для задач, требующих транспарентности и объяснимости решений. Наша мотивация состоит в том, чтобы раскрыть эти представления, обеспечив более четкое понимание процесса обучения без надзора и улучшить понимание факторов, которые вкладываются в звуковые представления. #### Метод Мы предлагаем использовать **Sparse Autoencoders (SAEs)** для анализа представлений, извлеченных аудио-предварительно обученными моделями. SAEs — это архитектуры нейронных сетей, которые научились сокращать размерность входных данных, сохраняя основные черты информации. В нашем случае, мы используем SAEs для декомпозиции представлений, извлеченных аудио-предварительно обученными моделями. Эти SAEs позволяют идентифицировать важные факторы, включенные в представления, и дают возможность "разглядеть" то, что именно сеть учится. Мы также применяем этот подход к классификации техники пени, чтобы демонстрировать пользу SAEs в практических сценариях. #### Результаты Мы проводим эксперименты с использованием различных аудио-предварительно обученных моделей, таких как Wav2Vec и HuBERT. Мы показываем, что SAEs могут декомпозировать что-то, что модели "видят" в звуковых данных, в том числе влияние таких факторов, как интонация, ритм и структура пение. Эти результаты показывают, что SAEs действительно могут улучшить четкость и понимание того, что происходит внутри аудио-предварительно обученных моделей. Мы также показываем, что SAEs могут улучшить разделяемость важных вокальных атрибутов, что делает их эффективным инструментом для разбора звуковых представлений. #### Значимость Мы видим применение этого подхода во многих областях, включая классификацию звуковых событий, обработку речи и стилизацию музыки. Однако, главное преимущество SAEs заключается в том, что они позволяют получить более транспарентные инсайты из аудио-предварительно обученных моделей, что в свою очередь может сделать такие модели более доступными для применения в реальной жизни. Эта транспарентность не только улучшает понимание моделей, но и может помочь в разработке более эффективных моделей в будущем. #### Выводы Мы демонстрируем, что SAEs могут с

Annotation:

Audio pretrained models are widely employed to solve various tasks in speech processing, sound event detection, or music information retrieval. However, the representations learned by these models are unclear, and their analysis mainly restricts to linear probing of the hidden representations. In this work, we explore the use of Sparse Autoencoders (SAEs) to analyze the hidden representations of pretrained models, focusing on a case study in singing technique classification. We first demonstrate...

ID: 2509.24793v1 cs.SD, cs.AI, cs.LG, eess.AS

arXiv PDF

📄 Thinking While Listening: Simple Test Time Scaling For Audio Classification

2025-09-26

Авторы:

Prateek Verma, Mert Pilanci

## Контекст Аудиоклассификация — это важная задача в области обработки звуковых данных, которая находит применение в многочисленных приложениях, таких как звуковой анализ, речевые ассистенты, автоматическая распознавание речи и анализ сенсорных сетей. Однако существуют сложности, связанные с ограниченной точностью и способностью существующих моделей обрабатывать сложные аудиоданные. Недавние развития в области языковых моделей, особенно те, что связаны с улучшением "мыслительных" способностей, показали, что модели могут быть обучены не только просто классифицировать, но и "думать" над задачами, что позволяет повысить точность классификации и улучшить понимание категорий. Наша мотивация заключается в исследовании способов интегрировать такие "мыслительные" процессы в модели для аудиоданных, а также в разработке архитектур, которые могут обеспечить эффективность в реальном времени, в том числе тест-тайм скалированием. ## Метод Мы предлагаем фреймворк, который включает в себя несколько ключевых элементов: (i) интеграция "мыслительных" процессов в модели классификации аудио, чтобы они могли выполнять рациональные выводы над категориями; (ii) разработка архитектуры, которая поддерживает "мыслительные" процессы во время тестирования (тест-тайм скалирование); (iii) эффективное использование моделей с меньшим количеством параметров для реализации этих возможностей. Мы используем методы тест-тайм скалирования, где модель производит несколько повторных проходов по тестовым данным с различными инициализациями, что позволяет повысить точность. Мы также рассматриваем два открытых текстовых модели размышления — GPT-OSS-20B и Qwen3-14B — для сравнения с нашей моделью. ## Результаты Мы проводим эксперименты, используя широкий набор данных, включая AudioSet и ESC-50, для оценки нашей модели. Мы сравниваем наше решение с существующими моделями, включая GPT-OSS-20B и Qwen3-14B. Наши эксперименты показывают, что модель, использующая тест-тайм скалирование, показывает значительные повышения точности в классификации аудио по сравнению с стандартными моделями. Мы также показываем, что модели с меньшим количеством параметров, такие как retrained GPT-2, могут превосходить в показателях точности модели с миллиардами параметров, таких как GPT-OSS-20B, благодаря ретраинированию только входного вектора. ## Значимость Наш фреймворк может применяться в различных сферах, таких как автоматическая распознавание речи (ASR), анализ сенсорных сетей, аудио аналитика для робототехники и даже в области здравоохранения (например, звуковые сигналы для диаг

Annotation:

We propose a framework that enables neural models to "think while listening" to everyday sounds, thereby enhancing audio classification performance. Motivated by recent advances in the reasoning capabilities of large language models, we address two central questions: (i) how can thinking be incorporated into existing audio classification pipelines to enable reasoning in the category space and improve performance, and (ii) can a new architecture be designed from the ground up to support both thin...

ID: 2509.19676v1 cs.SD, cs.AI, cs.LG, eess.AS

arXiv PDF

📄 On the de-duplication of the Lakh MIDI dataset

2025-09-24

Авторы:

Eunjin Choi, Hyerin Kim, Jiwoo Ryu, Juhan Nam, Dasaem Jeong

## Контекст Lakh MIDI Dataset (LMD) является одним из крупнейших общедоступных источников символической музыки. Он содержит более 178 тысяч файлов MIDI, представляющих различные музыкальные произведения. Несмотря на преимущества, такие большие данные часто склеиваются из разных источников, что приводит к повторениям и непоследовательностям в метаданных. Эти ошибки могут повлиять на качество обучения моделей и формирования выводов в музыкальной интеллектуальной обработке (MIR). Однако, несмотря на важность, дедупликация данных в MIR-сообществе недостаточно исследована. Этот труд вносит вклад в решение проблемы, обосновывая значимость дедупликации LMD для улучшения высококачественных моделей в этой области. ## Метод Для анализа и дедупликации LMD использовались различные подходы. В качестве бенчмарка выбран Clean MIDI Subset, в котором одинаковые песни представлены в разных версиях. Методы включили правильные (rule-based), символьные модели музыкального восприятия, а также модель BERT с увеличенным обучением (contrastive learning). Модель BERT была использована для параллельной обработки файлов MIDI и поиска дубликатов. Результаты сравнивались с другими моделями, чтобы определить наиболее эффективный подход к дедупликации LMD. ## Результаты На основе проведенных экспериментов были получены три версии отфильтрованного списка LMD. Наиболее консервативная версия отфильтровала 38 134 менее стабильных дубликатов из 178 561 файлов. Эти результаты позволили установить, что модель BERT с увеличенным обучением и аугментациями демонстрирует наилучшие результаты в дедупликации символических музыкальных данных. Этот подход оказался самым эффективным в контексте удаления повторяющихся файлов, с минимальным потерям качества или удалением ненужных данных. ## Значимость Результаты имеют значительное значение для области MIR и других крупных датасетов, которые могут повлиять на обучение моделей. Дедупликация LMD позволяет улучшить точность и надежность моделей, уменьшая влияние данных, зараженных дубликатами. Это прикладное решение может иметь большой потенциал в музыкальном анализе, генерации и машинном обучении. Будущие исследования могут расширить данные в других символических музыкальных коллекциях. ## Выводы Полученные результаты показывают, что модель BERT с увеличенным обучением является эффективным методом для дедупликации LMD. Она позволяет улучшить качество данных и разработать более надежные модели в MIR. Дальнейшие исследования могут сфокусироваться на масштабировании этого подхода для других больших датасетов и изучении других аспектов дедупликации в символической му

Annotation:

A large-scale dataset is essential for training a well-generalized deep-learning model. Most such datasets are collected via scraping from various internet sources, inevitably introducing duplicated data. In the symbolic music domain, these duplicates often come from multiple user arrangements and metadata changes after simple editing. However, despite critical issues such as unreliable training evaluation from data leakage during random splitting, dataset duplication has not been extensively ad...

ID: 2509.16662v1 cs.SD, cs.AI, cs.LG, cs.MM, eess.AS

arXiv PDF

Показано 11 - 20 из 47 записей