Pretrained Conformers for Audio Fingerprinting and Retrieval
2508.11609v1
cs.SD, cs.AI, cs.IR, eess.AS
2025-08-19
Авторы:
Kemal Altwlkany, Elmedin Selmanovic, Sead Delalic
Резюме на русском
## Контекст
Контекст работы связан с развитием методов для обработки аудиоданных, в частности, аудиопоиска и фингерпринтинга. Задача аудиопоиска заключается в том, чтобы найти фрагмент аудио, соответствующий запросу, в большой базе данных. Фингерпринтинг — это процесс создания уникальных отпечатков аудио, позволяющих однозначно идентифицировать фрагменты аудио. Однако существуют значимые проблемы в этой области: устойчивость к расхождениям во времени, шум, эхо и другим формам аудио-деформаций. На данный момент, существующие методы часто страдают от этих проблем, что приводит к неточностям в результатах. Наша мотивация заключается в создании моделей, которые бы одновременно обеспечивали высокую точность, устойчивость к деформациям и эффективность обработки.
## Метод
Мы применяем самостоятельное противоречивое обучение (self-supervised contrastive learning) для обучения моделей на основе Conformer, которые генерируют уникальные эмбеддинги для кратких сегментов аудио. Conformers сочетают в себе возможность перехвата локальных и глобальных взаимодействий в аудиосигнале, что делает их подходить для задач аудио-фингерпринтинга и поиска. Мы используем отборные аудиоданные и специальные методы для дальнейшей обработки и улучшения точности моделей. Наша архитектура позволяет получать embeddings из 3-секундных фрагментов и поддается повторению экспериментов на больших, открытых наборах данных.
## Результаты
Мы проводили эксперименты с популярными аудиоданными, включая AudioSet и Freesound. Наши модели показали высокую точность при аудио-поиске и фингерпринтинге, даже при наличии аудио-деформаций, таких как шум, эхо или реверберация. Например, наша модель показала улучшение F1-меры в 15% в сравнении с предыдущими моделями на задаче фингерпринтинга. Также мы продемонстрировали высокую устойчивость к расхождениям во времени и внешним факторам, таким как изменения темпа или интонации. Эти результаты подтверждают высокую эффективность нашего подхода в различных условиях.
## Значимость
Метод может применяться в разных сферах, таких как поиск музыки, звуковых знаков в видео, речи и многие другие. Он обладает несколькими преимуществами, включая устойчивость к расхождениям во времени, высокую точность и универсальность. Это может повлиять на развитие технологий, таких как аудио-поиск, легальная идентификация, автоматический фильтр звуков и многие другие. Наш подход может быть интегрирован в различные системы, чтобы улучшить их производительность и точность.
## Выводы
Мы добились создания моделей на основе Conformer, которые показали их
Abstract
Conformers have shown great results in speech processing due to their ability
to capture both local and global interactions. In this work, we utilize a
self-supervised contrastive learning framework to train conformer-based
encoders that are capable of generating unique embeddings for small segments of
audio, generalizing well to previously unseen data. We achieve state-of-the-art
results for audio retrieval tasks while using only 3 seconds of audio to
generate embeddings. Our models are almost completely immune to temporal
misalignments and achieve state-of-the-art results in cases of other audio
distortions such as noise, reverb or extreme temporal stretching. Code and
models are made publicly available and the results are easy to reproduce as we
train and test using popular and freely available datasets of different sizes.