Speech LLMs in Low-Resource Scenarios: Data Volume Requirements and the Impact of Pretraining on High-Resource Languages

2508.05149v1 eess.AS, cs.AI, cs.CL 2025-08-09

Авторы:

Seraphina Fong, Marco Matassoni, Alessio Brutti

Резюме на русском

## КОНТЕКСТ И ПРОБЛЕМАТИКА Автоматическое распознавание речи (АРР) в низкоресурсных языках является серьезной вызовом для современных исследований. Несмотря на то, что технологии глубокого обучения достигли высоких результатов в обработке речи для языков с большим объемом доступных данных, применение этих подходов к низкоресурсным языкам остается затрудненным. Основными препятствиями являются ограниченность доступных данных для обучения и отсутствие достаточного количества аннотированных ресурсов. В последнее время Large Language Models (LLMs) показали высокую эффективность в различных задачах обработки речи, включая задачи распознавания, если речь о языках с большим объемом данных. Однако для низкоресурсных языков эффективность LLMs еще не была полностью изучена. Задача адаптации LLMs для распознавания речи в условиях ограниченных данных требует новых подходов и методологий. В данной работе авторы фокусируются на исследовании Speech LLMs – моделей, которые объединяют речевые энкодеры с языковыми моделями с помощью тренируемого легковесного проектора. Особое внимание уделяется оценке объема необходимых данных для обучения и влиянию предварительного обучения на языках с большим ресурсом. ## ПРЕДЛОЖЕННЫЙ МЕТОД Для решения проблемы распознавания речи в низкоресурсных языках авторы предлагают использовать фреймворк SLAM-ASR, который сочетает речевой энкодер с языковой моделью через тренируемый легковесный проектор. Этот подход позволяет эффективно интегрировать речевые и языковые модели, оптимизируя процесс распознавания речи. Архитектура SLAM-ASR включает в себя следующие компоненты: 1. **Речевой энкодер**: Используется для извлечения фич из речевых сигналов. 2. **Легковесный проектор**: Позволяет соединить речевой энкодер с языковой моделью, обеспечивая эффективную передачу информации. 3. **Языковая модель (LLM)**: Используется для понимания и обработки речи на высокоуровневом языковом уровне. Авторы также исследуют влияние предварительного обучения проектора на языках с большим ресурсом. Они используют мультилингвальные модели, такие как EuroLLM и Salamandra, в сочетании с Whisper-large-v3-turbo для оценки эффективности этого подхода. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Авторы проводят ряд экспериментов для оценки эффективности предложенного метода. Они используют несколько публичных бенчмарков для оценки качества распознавания речи в низкоресурсных языках. В экспериментах исследуются следующие аспекты: - **Объем данных для обучения**: Авторы оценивают, какой объем данных необходим для достижения результатов, соответствующих производительности модели Whisper. - **Предварительное обучение на высокоресурсных языках**: Исследуется влияние предварительного обучения проектора на языках с большим ресурсом на качество распознавания в низкоресурсных языках. Результаты экспериментов показывают, что предварительное обучение проектора на высокоресурсных языках значительно снижает влияние дефицита данных, особенно при использовании малых объемов данных для обучения. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Данная работа имеет значительное практическое значение для развития технологий распознавания речи в низкоресурсных языках. Использование Speech LLMs с предварительным обучением на высокоресурсных языках может помочь преодолеть проблемы ограниченных данных, что делает эту технологию более доступной для широкого круга приложений. Преимущества данного подхода включают: - **Улучшение качества распознавания речи**: Эффективность метода позволяет достичь высоких результатов даже при ограниченном объеме данных. - **Применимость к мультилингвальным сценариям**: Использование мультилингвальных моделей, таких как EuroLLM и Salamandra, позволяет расширить область применения данного подхода на многоязычных данных. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ В рамках данной работы были достигнуты значительные результаты в области распознавания речи в низкоресурсных языках. Использование фреймворка SLAM-ASR и предварительного обучения проектора на высокоресурсных языках показало высокую эффективность в условиях ограниченных данных. Будущие исследования могут фокусироваться на дальнейшей оптимизации архитектуры моделей, а также на разработке новых методов для улучшения качества распознавания речи в мультилингвальных сценариях. Также важно продолжать исследования в области адаптации LLMs для распознавания речи в условиях дата-скейпинга и мультилингвизма.

Abstract

Large language models (LLMs) have demonstrated potential in handling spoken inputs for high-resource languages, reaching state-of-the-art performance in various tasks. However, their applicability is still less explored in low-resource settings. This work investigates the use of Speech LLMs for low-resource Automatic Speech Recognition using the SLAM-ASR framework, where a trainable lightweight projector connects a speech encoder and a LLM. Firstly, we assess training data volume requirements to match Whisper-only performance, re-emphasizing the challenges of limited data. Secondly, we show that leveraging mono- or multilingual projectors pretrained on high-resource languages reduces the impact of data scarcity, especially with small training sets. Using multilingual LLMs (EuroLLM, Salamandra) with whisper-large-v3-turbo, we evaluate performance on several public benchmarks, providing insights for future research on optimizing Speech LLMs for low-resource languages and multilinguality.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Speech LLMs in Low-Resource Scenarios: Data Volume Requirements and the Impact of Pretraining on High-Resource Languages

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Towards Audio Token Compression in Large Audio Language Models

Unifying Model and Layer Fusion for Speech Foundation Models

Lost in Phonation: Voice Quality Variation as an Evaluation Dimension for Speech...

StutterZero and StutterFormer: End-to-End Speech Conversion for Stuttering Trans...

Game-Time: Evaluating Temporal Dynamics in Spoken Language Models

Навигация