Contrastive timbre representations for musical instrument and synthesizer retrieval

2509.13285v1 cs.SD, cs.AI 2025-09-18

Авторы:

Gwendal Le Vaillant, Yannick Molle

Резюме на русском

## Контекст Главная задача цифровой музыкальной продукции — эффективное поисковое восстановление конкретных звуков инструментов из аудио миксов. Несмотря на развитие технологий, этот процесс остается сложным. Общее применение методик, позволяющих напрямую искать инструменты в звуковых миксах, сталкивается с ограничениями, в том числе из-за недостаточного разнообразия данных или неэффективных методов оценки. Работа предлагает новую архитектуру для поиска инструментов, основанную на технологии противоположностей (contrastive learning), которая объединяет в себе возможность работы как с одноинструментными, так и с многоинструментными записями. Это решение может помочь улучшить эффективность и точность поиска в базах данных инструментов, включая синтезаторы и сэмплеры. ## Метод Предложенная модель основывается на архитектуре контрастирования (contrastive), которая использует специальные подходы для создания положительных и отрицательных пар аудио данных. Эти пары используются для обучения модели классификации, которая может отличать различные инструментные звуки. Для обучения используется датасет, содержащий 3 884 инструментов, в том числе виртуальные инструменты. Для решения проблем выбора положительных и отрицательных пар в аудио миксах, разработчики предлагают новые техники, которые позволяют генерировать реалистичные пары для синтезаторов и сэмплеров. Это позволяет модели достичь более высокой точности в отличии инструментов даже в ситуациях, когда их сочетают в одном миксе. ## Результаты Первое экспериментальное исследование проводилось на базе 3 884 инструментов, где использовался одиночный инструмент в качестве запроса. Метод противоположностей показал себя эффективным, сопоставимым с традиционными подходами на основе классификации. Второй эксперимент состоялся с миксами из трех инструментов, где прототип показал результаты с точностью 81.7% на первом месте и 95.7% для пяти лучших результатов. Эти результаты доказывают, что модель может эффективно работать в трудных условиях многоинструментных миксов. ## Значимость Предложенная модель может быть применена в музыкальных студиях для быстрого поиска инструментов в звуковых миксах, а также в синтезаторах и сэмплерных системах для улучшения поисковых возможностей. Она предлагает значительные преимущества по сравнению с традиционными методами, включая более высокую точность и эффективность в условиях многоинструментных записей. Это может привести к усовершенствованию процессов работы в музыкальной промышленности и увеличить эффективность производства цифровой

Abstract

Efficiently retrieving specific instrument timbres from audio mixtures remains a challenge in digital music production. This paper introduces a contrastive learning framework for musical instrument retrieval, enabling direct querying of instrument databases using a single model for both single- and multi-instrument sounds. We propose techniques to generate realistic positive/negative pairs of sounds for virtual musical instruments, such as samplers and synthesizers, addressing limitations in common audio data augmentation methods. The first experiment focuses on instrument retrieval from a dataset of 3,884 instruments, using single-instrument audio as input. Contrastive approaches are competitive with previous works based on classification pre-training. The second experiment considers multi-instrument retrieval with a mixture of instruments as audio input. In this case, the proposed contrastive framework outperforms related works, achieving 81.7\% top-1 and 95.7\% top-5 accuracies for three-instrument mixtures.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Contrastive timbre representations for musical instrument and synthesizer retrieval

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Large Speech Model Enabled Semantic Communication

YingMusic-Singer: Zero-shot Singing Voice Synthesis and Editing with Annotation-...

YingMusic-SVC: Real-World Robust Zero-Shot Singing Voice Conversion with Flow-GR...

Language Models as Semantic Teachers: Post-Training Alignment for Medical Audio ...

State Space Models for Bioacoustics: A comparative Evaluation with Transformers

Навигация