MI-Fuse: Label Fusion for Unsupervised Domain Adaptation with Closed-Source Large-Audio Language Model

2509.20706v1 cs.CL, cs.SD, eess.AS 2025-09-27

Авторы:

Hsiao-Ying Huang, Yi-Cheng Lin, Hung-yi Lee

Резюме на русском

## Контекст В последние годы растет интерес к области звукового анализа и распознавания эмоций в речевом дорожке. Это связано с ростом применения речевых технологий в различных сферах, таких как интерфейсы с произносимым контролем, психологический мониторинг и мобильные приложения. Однако существует значимая проблема — сильная зависимость речевых эмоциональных моделей от домена. Это означает, что модели, обученные на одном типе данных, часто не могут достичь высокого качества работы на других. Это проблема особенно актуальна при использовании больших моделей звука и языка (LALMs), таких как XLM-V, которые показывают сильную zero-shot способность в серьезных задачах, но не всегда могут хорошо применяться в реальных условиях. Это ограничение вызвано тем, что LALMs часто доступны только через API, а исходные данные, необходимые для доступа к этим моделям, закрыты. Наша мотивация заключается в поиске решения для этих проблем, особенно в ситуациях, когда source data unavailable и работа в cross-domain сценариях. ## Метод Предлагаемая методология MI-Fuse (Mutual-Information Fused Learning) представляет собой расширенную фреймворк для деноизвания лейблов в условиях неучитываемых зонда. Мы используем две модели: главную LALM-Teacher и вспомогательную SER-classifier. Обе модели обучаются на source domain, но только вспомогательная модель используется для предсказаний в target domain. Для стабилизации обучения используется экспоненциальное сглаживание для moving average teacher. Ключевая идея заключается в том, чтобы получать множество стохатических предсказаний от каждой модели и складывать их с использованием мутуальной информации в качестве веса для каждого. Это позволяет фокусироваться на более уверенных прогнозах, уменьшая влияние шума и неверных предсказаний. Такой подход обеспечивает более точный и стабильный вывод в сценариях cross-domain. ## Результаты Мы проводили эксперименты с MI-Fuse на трех публичных датасетах эмоционального распознавания, включая IEMOCAP, MSP-IMPROV и CMU-MOSEI. Для каждого теста производилось по шести переносам кросс-доменных моделей. Результаты показали, что студентская модель, обученная с помощью MI-Fuse, превосходит LALM-Teacher и самые сильные базовые модели на трёх тестовых датасетах. В итоге, студентская модель показала улучшение до 3.9% по отношению к сильнейшему базовому решению, что демонстрирует эффективность этого подхода в решении проблем условий cross-domain. ## Значимость Предлагаемый подход MI-Fuse имеет широкие применения в сферах, где требуется эмоциональный анализ речи с помощью LALMs, но нет доступа к source data. Например, он может применяться в системах мониторинга психического состояния, мобильных прило

Abstract

Large audio-language models (LALMs) show strong zero-shot ability on speech tasks, suggesting promise for speech emotion recognition (SER). However, SER in real-world deployments often fails under domain mismatch, where source data are unavailable and powerful LALMs are accessible only through an API. We ask: given only unlabeled target-domain audio and an API-only LALM, can a student model be adapted to outperform the LALM in the target domain? To this end, we propose MI-Fuse, a denoised label fusion framework that supplements the LALM with a source-domain trained SER classifier as an auxiliary teacher. The framework draws multiple stochastic predictions from both teachers, weights their mean distributions by mutual-information-based uncertainty, and stabilizes training with an exponential moving average teacher. Experiments across three public emotion datasets and six cross-domain transfers show consistent gains, with the student surpassing the LALM and outperforming the strongest baseline by 3.9%. This approach strengthens emotion-aware speech systems without sharing source data, enabling realistic adaptation.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

MI-Fuse: Label Fusion for Unsupervised Domain Adaptation with Closed-Source Large-Audio Language Model

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Joint Speech and Text Training for LLM-Based End-to-End Spoken Dialogue State Tr...

Mispronunciation Detection and Diagnosis Without Model Training: A Retrieval-Bas...

Proactive Hearing Assistants that Isolate Egocentric Conversations

Hallucination Benchmark for Speech Foundation Models

MTP-S2UT: Enhancing Speech-to-Speech Translation Quality with Multi-token Predic...

Навигация