Speech Language Models for Under-Represented Languages: Insights from Wolof

2509.15362v1 cs.CL, cs.SD, eess.AS 2025-09-23

Авторы:

Yaya Sy, Dioula Doucouré, Christophe Cerisara, Irina Illina

Резюме на русском

## Контекст В последние годы рост интереса к развитию языковых моделей для недостаточно представленных языков стал очевидным. Одной из таких языков является Волоф, который говорят в Западной Африке. Несмотря на свою важность для местного населения, Волоф не имеет достаточного количества ресурсов для обучения языковых моделей, что приводит к существующим проблемам в доступности и качестве технологий на этом языке. Это мотивирует разработку моделей, которые могут улучшить обработку слов и фраз на Волофе, включая аспекты, такие как транскрипция речи и перевод. Эта работа сосредоточена на моделировании речи и текста на Волофе, чтобы помочь улучшить доступ к технологиям на этом языке. ## Метод Для создания модели речи на Волофе использовались данные, собранные в ходе специального сбора слов и фраз на этом языке. Данные были обработаны с помощью специальной архитектуры модели, которая использовалась для обучения модели речи. Модель была обучена на основе синтетических данных, а затем протестирована на реальных звуковых сигналах на Волофе. Для обучения модели речи использовались методы нейронного машинного обучения, в том числе продолжающийся предварительный перенос данных (continued pretraining), который позволил модели изучить языковые модели на большом объеме естественных данных. Это позволило улучшить качество модели, особенно в области распознавания речи и перевода текста. ## Результаты После проведения экспериментов было получено, что модель речи на Волофе демонстрирует значительное улучшение в распознавании звуков и перевода текста в сравнении с базовой моделью. Модель, обученная на данных Волофа, показала лучшие результаты по сравнению с общедоступными моделями, которые не были адаптированы для этого языка. Это указывает на то, что продолжительное обучение модели на большом объеме естественных данных помогает улучшить качество распознавания речи и перевода. Также было проверено, что модель может выполнять более сложные задачи, такие как многошаговый цепочный перевод текста, что демонстрирует её мощь и гибкость. ## Значимость Эта модель может иметь значительное значение для сообществ, которые говорят на Волофе, так как она позволяет улучшить доступ к Технологиям Натурального Языкового Процессинга. Это может помочь в развитии образовательных и систем здравоохранения, а также других областях, где необходимо использование языка Волоф. Модель также может иметь будущие приложения в области перевода текста на Волофе, что поможет снизить барьеры для местных граждан, которые не всегда могут общаться на других языках. ## Выводы В ходе этого исследования было доказано, что модель речи на В

Abstract

We present our journey in training a speech language model for Wolof, an underrepresented language spoken in West Africa, and share key insights. We first emphasize the importance of collecting large-scale, spontaneous, high-quality speech data, and show that continued pretraining HuBERT on this dataset outperforms both the base model and African-centric models on ASR. We then integrate this speech encoder into a Wolof LLM to train the first Speech LLM for this language, extending its capabilities to tasks such as speech translation. Furthermore, we explore training the Speech LLM to perform multi-step Chain-of-Thought before transcribing or translating. Our results show that the Speech LLM not only improves speech recognition but also performs well in speech translation. The models and the code will be openly shared.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Speech Language Models for Under-Represented Languages: Insights from Wolof

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Joint Speech and Text Training for LLM-Based End-to-End Spoken Dialogue State Tr...

Mispronunciation Detection and Diagnosis Without Model Training: A Retrieval-Bas...

Proactive Hearing Assistants that Isolate Egocentric Conversations

Hallucination Benchmark for Speech Foundation Models

MTP-S2UT: Enhancing Speech-to-Speech Translation Quality with Multi-token Predic...

Навигация