SloPalSpeech: A 2,8000-Hour Slovak Speech Corpus from Parliamentary Data

2509.19270v1 cs.CL, cs.AI, cs.SD 2025-09-25

Авторы:

Erik Božík, Marek Šuppa

Резюме на русском

## Контекст Slovak является низкоресурсной языковой системой в области Automatic Speech Recognition (ASR). Ограниченное количество доступных данных и полнотекстовых корпусов ставит перед исследователями серьезные проблемы при разработке эффективных ASR-систем. Эти проблемы становятся особенно актуальными в сфере диалоговых искусственных интеллектов, где необходима высокая точность распознавания речи. Наличие качественных, больших корпусов данных является ключевым фактором для отрасли. Однако, на данный момент, такие корпусы для словацкого языка редко. Мы предлагаем SloPalSpeech — крупнейший по размеру сейчас аср-датасет для словацкого языка, содержащий 2,806 часов речевых данных, полученных из парламентских протоколов. Данный корпус представляет собой значительный улучшение по размеру и качеству данных по сравнению с предыдущими датасетом. ## Метод SloPalSpeech был создан с использованием робостых методов обработки данных. Длинные записи из парламентских протоколов были выровнены и разбиты на чистые, 30-секундных аудио-пары с текстовой меткой. Это позволило получить высококачественный датасет для обучения ASR-систем. Мы создали pipeline для сегментации и выравнивания, который обеспечивает высокую точность и значительную уменьшение шума в данных. Далее, мы применили этот pipeline для обработки и создания SloPalSpeech. Датасет был разделен на тренировочную и тестовую выборки, чтобы позволить разработке и оценке ASR-систем. ## Результаты Мы провели ряд экспериментов с помощью SloPalSpeech, используя модель OpenAI Whisper. Мы показали, что fine-tuning моделей Whisper-small, Whisper-medium и Whisper-large-v3 на нашем датасете приводит к существенному улучшению в распознавании речи. Наиболее заметный результат — уменьшение Word Error Rate (WER) до 70% в сравнении с базовой моделью на некоторых стандартных тестах, таких как Common Voice и FLEURS. Мы доказали, что SloPalSpeech может эффективно использоваться для обучения ASR-систем, даже для таких низкоресурсных языков, как словацкий. ## Значимость Наша работа имеет значительное значение для развития ASR-систем для низкоресурсных языков. Мы публикуем SloPalSpeech вместе с полностью отформатированными текстами — более 60 миллионов слов. Это дает возможность другим исследователям продолжать развивать и оптимизировать ASR-системы. Наш корпус также может быть применен в других областях, таких как диалоговые системы и переводчики, где точность распознавания речи критична. ## Выводы Мы представили SloPalSpeech — крупнейший датасет для ASR в словацком языке. Наша работа показала, что этот датасет эффективно может использоваться для fine-tuning ASR-систем, даже для низкоресурсных языков. М

Abstract

Automatic Speech Recognition (ASR) for low-resource languages like Slovak is hindered by the scarcity of training data. To address this, we introduce SloPalSpeech, a new, large-scale Slovak ASR dataset containing 2,806 hours of speech from parliamentary proceedings. We developed a robust processing pipeline to align and segment long-form recordings into clean, 30-second audio-transcript pairs suitable for model training. We use this dataset to fine-tune several OpenAI Whisper models (small, medium, large-v3, and large-v3-turbo), achieving significant Word Error Rate (WER) reductions on standard Slovak benchmarks like Common Voice and FLEURS. For instance, the fine-tuned Whisper-small model's WER dropped by up to 70\%, approaching the baseline performance of the much larger Whisper-large-v3 model. To foster future research in low-resource speech recognition, we publicly release the complete SloPalSpeech dataset, the fully segmented transcripts (60 million words), and all our fine-tuned models.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

SloPalSpeech: A 2,8000-Hour Slovak Speech Corpus from Parliamentary Data

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

VocalNet-M2: Advancing Low-Latency Spoken Language Modeling via Integrated Multi...

A Critical Review of the Need for Knowledge-Centric Evaluation of Quranic Recita...

Data-efficient Targeted Token-level Preference Optimization for LLM-based Text-t...

SAGE-LD: Towards Scalable and Generalizable End-to-End Language Diarization via ...

Emotion-Aligned Generation in Diffusion Text to Speech Models via Preference-Gui...

Навигация