AISTAT lab system for DCASE2025 Task6: Language-based audio retrieval

2509.16649v1 cs.SD, cs.AI, eess.AS 2025-09-24

Авторы:

Hyun Jun Kim, Hyeong Yong Choi, Changwon Lim

Резюме на русском

################################################# ## Контекст ################################################# В данной работе представлена система AISTAT, разработанная для решения задачи 6 (Language-based audio retrieval) в рамках DCASE 2025. Целью исследования является развитие эффективных методов для поиска аудиофайлов с помощью языковых запросов. Эта проблема играет важную роль в области обработки звука, так как поиск аудио по текстовому описанию широко применяется в сферах, таких как запросы пользователей, управление домашними устройствами и мобильные приложения. Несмотря на прогресс в области компьютерного зрения и машинного обучения, аудио-текстовый поиск остается вызовом из-за сложности извлечения семантических признаков из звуковых сигналов. Существующие решения часто страдают от недостатка точности или универсальности. Таким образом, целью настоящей работы является развитие универсальной системы, обеспечивающей высокую точность и широкую применимость для решения этой задачи. ################################################# ## Метод ################################################# Разработанная система основывается на двухэнкодерной архитектуре, где аудио и текст обрабатываются независимо друг от друга, а их представления выравниваются с использованием контрастного обучения. За основу архитектуры взята модель Dual Encoder. Для повышения качества их алгоритмы дистилляции использовались для передачи знаний из крупных языковых моделей (LLMs). Затем, для расширения данных использовались техники, такие как back-translation и LLM mix. Для улучшения точности кластеризация реализована в качестве классификационной задачи, которая вводит дополнительную тонкую настройку. Обучение производилось с использованием Clotho development test split. Наилучшая модель (в одиночном варианте) показала mAP@16 равное 46.62, а консенсусный подход из четырех моделей достиг mAP@16 в 48.83. ################################################# ## Результаты ################################################# Система была оценена на Clotho development test split. Лучшая модель в одиночном варианте показала mAP@16 (mean average precision at 16) в размере 46.62. Консенсусный подход, включавший четыре модели, достиг mAP@16 в размере 48.83. Эти результаты показывают, что система AISTAT выдает высокую точность в предсказании аудиофайлов по текстовым запросам. Также был проведен сравнительный анализ с другими моделями, включая конкурентные решения, что подтвердило преимущества данного подхода в ситуациях, требующих высокой точности поиска звуковых файлов. ################################################# ## Значимость ################################################# Разработанная система AISTAT может быть применена в разных областях, где требуется автоматическое поисковое решение с помощью текстовых запросов. Например, это могут быть приложения для поиска музыки, управление домашними устройствами при помощи голосовых команд, а также мобильные приложения для поиска аудиоконтента. Система

Abstract

This report presents the AISTAT team's submission to the language-based audio retrieval task in DCASE 2025 Task 6. Our proposed system employs dual encoder architecture, where audio and text modalities are encoded separately, and their representations are aligned using contrastive learning. Drawing inspiration from methodologies of the previous year's challenge, we implemented a distillation approach and leveraged large language models (LLMs) for effective data augmentation techniques, including back-translation and LLM mix. Additionally, we incorporated clustering to introduce an auxiliary classification task for further finetuning. Our best single system achieved a mAP@16 of 46.62, while an ensemble of four systems reached a mAP@16 of 48.83 on the Clotho development test split.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

AISTAT lab system for DCASE2025 Task6: Language-based audio retrieval

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

RRPO: Robust Reward Policy Optimization for LLM-based Emotional TTS

Multi-Loss Learning for Speech Emotion Recognition with Energy-Adaptive Mixup an...

Multidimensional Music Aesthetic Evaluation via Semantically Consistent C-Mixup ...

Aligning Generative Music AI with Human Preferences: Methods and Challenges

Real-Time Speech Enhancement via a Hybrid ViT: A Dual-Input Acoustic-Image Featu...

Навигация