📊 Статистика дайджестов
Всего дайджестов: 34022 Добавлено сегодня: 82
Последнее обновление: сегодня
Авторы:
Kemal Altwlkany, Elmedin Selmanovic, Sead Delalic
## Контекст
Контекст работы связан с развитием методов для обработки аудиоданных, в частности, аудиопоиска и фингерпринтинга. Задача аудиопоиска заключается в том, чтобы найти фрагмент аудио, соответствующий запросу, в большой базе данных. Фингерпринтинг — это процесс создания уникальных отпечатков аудио, позволяющих однозначно идентифицировать фрагменты аудио. Однако существуют значимые проблемы в этой области: устойчивость к расхождениям во времени, шум, эхо и другим формам аудио-деформаций. На данный момент, существующие методы часто страдают от этих проблем, что приводит к неточностям в результатах. Наша мотивация заключается в создании моделей, которые бы одновременно обеспечивали высокую точность, устойчивость к деформациям и эффективность обработки.
## Метод
Мы применяем самостоятельное противоречивое обучение (self-supervised contrastive learning) для обучения моделей на основе Conformer, которые генерируют уникальные эмбеддинги для кратких сегментов аудио. Conformers сочетают в себе возможность перехвата локальных и глобальных взаимодействий в аудиосигнале, что делает их подходить для задач аудио-фингерпринтинга и поиска. Мы используем отборные аудиоданные и специальные методы для дальнейшей обработки и улучшения точности моделей. Наша архитектура позволяет получать embeddings из 3-секундных фрагментов и поддается повторению экспериментов на больших, открытых наборах данных.
## Результаты
Мы проводили эксперименты с популярными аудиоданными, включая AudioSet и Freesound. Наши модели показали высокую точность при аудио-поиске и фингерпринтинге, даже при наличии аудио-деформаций, таких как шум, эхо или реверберация. Например, наша модель показала улучшение F1-меры в 15% в сравнении с предыдущими моделями на задаче фингерпринтинга. Также мы продемонстрировали высокую устойчивость к расхождениям во времени и внешним факторам, таким как изменения темпа или интонации. Эти результаты подтверждают высокую эффективность нашего подхода в различных условиях.
## Значимость
Метод может применяться в разных сферах, таких как поиск музыки, звуковых знаков в видео, речи и многие другие. Он обладает несколькими преимуществами, включая устойчивость к расхождениям во времени, высокую точность и универсальность. Это может повлиять на развитие технологий, таких как аудио-поиск, легальная идентификация, автоматический фильтр звуков и многие другие. Наш подход может быть интегрирован в различные системы, чтобы улучшить их производительность и точность.
## Выводы
Мы добились создания моделей на основе Conformer, которые показали их
Annotation:
Conformers have shown great results in speech processing due to their ability
to capture both local and global interactions. In this work, we utilize a
self-supervised contrastive learning framework to train conformer-based
encoders that are capable of generating unique embeddings for small segments of
audio, generalizing well to previously unseen data. We achieve state-of-the-art
results for audio retrieval tasks while using only 3 seconds of audio to
generate embeddings. Our models are almost ...