Exploring Fine-Tuning of Large Audio Language Models for Spoken Language Understanding under Limited Speech data

2509.15389v1 cs.SD, cs.CL, cs.LG, eess.AS 2025-09-23

Авторы:

Youngwon Choi, Jaeyoon Jung, Hyeonyu Kim, Huu-Kim Nguyen, Hwayeon Kim

Резюме на русском

## Контекст В последние несколько лет, большие языковые модели, ориентированные на аудио, становятся важной частью современных технологий, особенно в области распознавания речи и понимания объемного текста. Однако, несмотря на свою мощь, эти модели сталкиваются с трудностями при работе с ограниченным количеством говорящего языка. Ограниченность данных, особенно в языках с небольшим количеством ресурсов, остается основной проблемой. Эта проблема напрямую влияет на качество использования моделей для устных задач, таких как понимание естественного языка и транскрибирование речи. Наше исследование сосредоточено на изучении эффективных способов тюнинга больших аудио-языковых моделей (LALMs) для решения этих проблемы, применяя методики тюнинга, включая text-only, direct mixing, и curriculum learning. ## Метод Мы рассматриваем три основных методов тюнинга: text-only, direct mixing, и curriculum learning. **Text-only fine-tuning** заключается в обучении модели только на текстовых данных. **Direct mixing** состоит в смешивании текстовых и аудиовыводов модели. **Curriculum learning** предполагает постепенное увеличение сложности данных в процессе обучения. Мы также исследуем два сценария: обучение на больших данных и обучение с ограниченным количеством ресурсов. Для экспериментов мы используем корпусы данных, содержащие говорящий язык и текст, и определяем, насколько эффективны эти методы при разных объемах данных. Мы используем метрики, такие как F1-score и accuracy, для оценки качества распознавания речи и понимания языка. ## Результаты Наши эксперименты показали, что LALMs, даже при text-only fine-tuning, достигают высокой точности в ситуации, когда доступно большое количество текстовых данных. Например, при добавлении даже небольшого количества аудиоданных (2–5%) мы заметили значительное улучшение производительности. Метод curriculum learning дал самые высокие результаты при ограниченных ресурсах, позволяя модели сфокусироваться на сложности данных в зависимости от прогресса обучения. Также, в сценарии межязыкового тюнинга, когда доступны данные о говорящем языке в одном языке, а целевой язык имеет только текстовые данные, LALMs показали эффективность в адаптации к новому языку. ## Значимость Проанализированные методы имеют практическое значение для области тюнинга моделей АСТ, особенно в ситуациях, когда ресурсы данных ограничены. Эти подходы могут быть применены не только в распознавании речи, но и в других задачах, таких как транскрибирование речи и контекстное понимание естественного языка. Они позволяют значительно увеличить точность работы моделей, даже при доступе к минимальным объемам реч

Abstract

Large Audio Language Models (LALMs) have emerged as powerful tools for speech-related tasks but remain underexplored for fine-tuning, especially with limited speech data. To bridge this gap, we systematically examine how different fine-tuning schemes including text-only, direct mixing, and curriculum learning affect spoken language understanding (SLU), focusing on scenarios where text-label pairs are abundant while paired speech-label data are limited. Results show that LALMs already achieve competitive performance with text-only fine-tuning, highlighting their strong generalization ability. Adding even small amounts of speech data (2-5%) yields substantial further gains, with curriculum learning particularly effective under scarce data. In cross-lingual SLU, combining source-language speech data with target-language text and minimal target-language speech data enables effective adaptation. Overall, this study provides practical insights into the LALM fine-tuning under realistic data constraints.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Exploring Fine-Tuning of Large Audio Language Models for Spoken Language Understanding under Limited Speech data

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

OLMoASR: Open Models and Data for Training Robust Speech Recognition Models

Beyond Transcription: Mechanistic Interpretability in ASR

Навигация