AISTAT lab system for DCASE2025 Task6: Language-based audio retrieval
2509.16649v1
cs.SD, cs.AI, eess.AS
2025-09-24
Авторы:
Hyun Jun Kim, Hyeong Yong Choi, Changwon Lim
Резюме на русском
#################################################
## Контекст
#################################################
В данной работе представлена система AISTAT, разработанная для решения задачи 6 (Language-based audio retrieval) в рамках DCASE 2025. Целью исследования является развитие эффективных методов для поиска аудиофайлов с помощью языковых запросов. Эта проблема играет важную роль в области обработки звука, так как поиск аудио по текстовому описанию широко применяется в сферах, таких как запросы пользователей, управление домашними устройствами и мобильные приложения. Несмотря на прогресс в области компьютерного зрения и машинного обучения, аудио-текстовый поиск остается вызовом из-за сложности извлечения семантических признаков из звуковых сигналов. Существующие решения часто страдают от недостатка точности или универсальности. Таким образом, целью настоящей работы является развитие универсальной системы, обеспечивающей высокую точность и широкую применимость для решения этой задачи.
#################################################
## Метод
#################################################
Разработанная система основывается на двухэнкодерной архитектуре, где аудио и текст обрабатываются независимо друг от друга, а их представления выравниваются с использованием контрастного обучения. За основу архитектуры взята модель Dual Encoder. Для повышения качества их алгоритмы дистилляции использовались для передачи знаний из крупных языковых моделей (LLMs). Затем, для расширения данных использовались техники, такие как back-translation и LLM mix. Для улучшения точности кластеризация реализована в качестве классификационной задачи, которая вводит дополнительную тонкую настройку. Обучение производилось с использованием Clotho development test split. Наилучшая модель (в одиночном варианте) показала mAP@16 равное 46.62, а консенсусный подход из четырех моделей достиг mAP@16 в 48.83.
#################################################
## Результаты
#################################################
Система была оценена на Clotho development test split. Лучшая модель в одиночном варианте показала mAP@16 (mean average precision at 16) в размере 46.62. Консенсусный подход, включавший четыре модели, достиг mAP@16 в размере 48.83. Эти результаты показывают, что система AISTAT выдает высокую точность в предсказании аудиофайлов по текстовым запросам. Также был проведен сравнительный анализ с другими моделями, включая конкурентные решения, что подтвердило преимущества данного подхода в ситуациях, требующих высокой точности поиска звуковых файлов.
#################################################
## Значимость
#################################################
Разработанная система AISTAT может быть применена в разных областях, где требуется автоматическое поисковое решение с помощью текстовых запросов. Например, это могут быть приложения для поиска музыки, управление домашними устройствами при помощи голосовых команд, а также мобильные приложения для поиска аудиоконтента. Система
Abstract
This report presents the AISTAT team's submission to the language-based audio
retrieval task in DCASE 2025 Task 6. Our proposed system employs dual encoder
architecture, where audio and text modalities are encoded separately, and their
representations are aligned using contrastive learning. Drawing inspiration
from methodologies of the previous year's challenge, we implemented a
distillation approach and leveraged large language models (LLMs) for effective
data augmentation techniques, including back-translation and LLM mix.
Additionally, we incorporated clustering to introduce an auxiliary
classification task for further finetuning. Our best single system achieved a
mAP@16 of 46.62, while an ensemble of four systems reached a mAP@16 of 48.83 on
the Clotho development test split.
Ссылки и действия
Дополнительные ресурсы: