MI-Fuse: Label Fusion for Unsupervised Domain Adaptation with Closed-Source Large-Audio Language Model
2509.20706v1
cs.CL, cs.SD, eess.AS
2025-09-27
Авторы:
Hsiao-Ying Huang, Yi-Cheng Lin, Hung-yi Lee
Резюме на русском
## Контекст
В последние годы растет интерес к области звукового анализа и распознавания эмоций в речевом дорожке. Это связано с ростом применения речевых технологий в различных сферах, таких как интерфейсы с произносимым контролем, психологический мониторинг и мобильные приложения. Однако существует значимая проблема — сильная зависимость речевых эмоциональных моделей от домена. Это означает, что модели, обученные на одном типе данных, часто не могут достичь высокого качества работы на других. Это проблема особенно актуальна при использовании больших моделей звука и языка (LALMs), таких как XLM-V, которые показывают сильную zero-shot способность в серьезных задачах, но не всегда могут хорошо применяться в реальных условиях. Это ограничение вызвано тем, что LALMs часто доступны только через API, а исходные данные, необходимые для доступа к этим моделям, закрыты. Наша мотивация заключается в поиске решения для этих проблем, особенно в ситуациях, когда source data unavailable и работа в cross-domain сценариях.
## Метод
Предлагаемая методология MI-Fuse (Mutual-Information Fused Learning) представляет собой расширенную фреймворк для деноизвания лейблов в условиях неучитываемых зонда. Мы используем две модели: главную LALM-Teacher и вспомогательную SER-classifier. Обе модели обучаются на source domain, но только вспомогательная модель используется для предсказаний в target domain. Для стабилизации обучения используется экспоненциальное сглаживание для moving average teacher. Ключевая идея заключается в том, чтобы получать множество стохатических предсказаний от каждой модели и складывать их с использованием мутуальной информации в качестве веса для каждого. Это позволяет фокусироваться на более уверенных прогнозах, уменьшая влияние шума и неверных предсказаний. Такой подход обеспечивает более точный и стабильный вывод в сценариях cross-domain.
## Результаты
Мы проводили эксперименты с MI-Fuse на трех публичных датасетах эмоционального распознавания, включая IEMOCAP, MSP-IMPROV и CMU-MOSEI. Для каждого теста производилось по шести переносам кросс-доменных моделей. Результаты показали, что студентская модель, обученная с помощью MI-Fuse, превосходит LALM-Teacher и самые сильные базовые модели на трёх тестовых датасетах. В итоге, студентская модель показала улучшение до 3.9% по отношению к сильнейшему базовому решению, что демонстрирует эффективность этого подхода в решении проблем условий cross-domain.
## Значимость
Предлагаемый подход MI-Fuse имеет широкие применения в сферах, где требуется эмоциональный анализ речи с помощью LALMs, но нет доступа к source data. Например, он может применяться в системах мониторинга психического состояния, мобильных прило
Abstract
Large audio-language models (LALMs) show strong zero-shot ability on speech
tasks, suggesting promise for speech emotion recognition (SER). However, SER in
real-world deployments often fails under domain mismatch, where source data are
unavailable and powerful LALMs are accessible only through an API. We ask:
given only unlabeled target-domain audio and an API-only LALM, can a student
model be adapted to outperform the LALM in the target domain? To this end, we
propose MI-Fuse, a denoised label fusion framework that supplements the LALM
with a source-domain trained SER classifier as an auxiliary teacher. The
framework draws multiple stochastic predictions from both teachers, weights
their mean distributions by mutual-information-based uncertainty, and
stabilizes training with an exponential moving average teacher. Experiments
across three public emotion datasets and six cross-domain transfers show
consistent gains, with the student surpassing the LALM and outperforming the
strongest baseline by 3.9%. This approach strengthens emotion-aware speech
systems without sharing source data, enabling realistic adaptation.
Ссылки и действия
Дополнительные ресурсы: