📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 Pretrained Conformers for Audio Fingerprinting and Retrieval

2025-08-19

Авторы:

Kemal Altwlkany, Elmedin Selmanovic, Sead Delalic

## Контекст Контекст работы связан с развитием методов для обработки аудиоданных, в частности, аудиопоиска и фингерпринтинга. Задача аудиопоиска заключается в том, чтобы найти фрагмент аудио, соответствующий запросу, в большой базе данных. Фингерпринтинг — это процесс создания уникальных отпечатков аудио, позволяющих однозначно идентифицировать фрагменты аудио. Однако существуют значимые проблемы в этой области: устойчивость к расхождениям во времени, шум, эхо и другим формам аудио-деформаций. На данный момент, существующие методы часто страдают от этих проблем, что приводит к неточностям в результатах. Наша мотивация заключается в создании моделей, которые бы одновременно обеспечивали высокую точность, устойчивость к деформациям и эффективность обработки. ## Метод Мы применяем самостоятельное противоречивое обучение (self-supervised contrastive learning) для обучения моделей на основе Conformer, которые генерируют уникальные эмбеддинги для кратких сегментов аудио. Conformers сочетают в себе возможность перехвата локальных и глобальных взаимодействий в аудиосигнале, что делает их подходить для задач аудио-фингерпринтинга и поиска. Мы используем отборные аудиоданные и специальные методы для дальнейшей обработки и улучшения точности моделей. Наша архитектура позволяет получать embeddings из 3-секундных фрагментов и поддается повторению экспериментов на больших, открытых наборах данных. ## Результаты Мы проводили эксперименты с популярными аудиоданными, включая AudioSet и Freesound. Наши модели показали высокую точность при аудио-поиске и фингерпринтинге, даже при наличии аудио-деформаций, таких как шум, эхо или реверберация. Например, наша модель показала улучшение F1-меры в 15% в сравнении с предыдущими моделями на задаче фингерпринтинга. Также мы продемонстрировали высокую устойчивость к расхождениям во времени и внешним факторам, таким как изменения темпа или интонации. Эти результаты подтверждают высокую эффективность нашего подхода в различных условиях. ## Значимость Метод может применяться в разных сферах, таких как поиск музыки, звуковых знаков в видео, речи и многие другие. Он обладает несколькими преимуществами, включая устойчивость к расхождениям во времени, высокую точность и универсальность. Это может повлиять на развитие технологий, таких как аудио-поиск, легальная идентификация, автоматический фильтр звуков и многие другие. Наш подход может быть интегрирован в различные системы, чтобы улучшить их производительность и точность. ## Выводы Мы добились создания моделей на основе Conformer, которые показали их

Annotation:

Conformers have shown great results in speech processing due to their ability to capture both local and global interactions. In this work, we utilize a self-supervised contrastive learning framework to train conformer-based encoders that are capable of generating unique embeddings for small segments of audio, generalizing well to previously unseen data. We achieve state-of-the-art results for audio retrieval tasks while using only 3 seconds of audio to generate embeddings. Our models are almost ...

ID: 2508.11609v1 cs.SD, cs.AI, cs.IR, eess.AS

arXiv PDF