SloPalSpeech: A 2,8000-Hour Slovak Speech Corpus from Parliamentary Data
2509.19270v1
cs.CL, cs.AI, cs.SD
2025-09-25
Авторы:
Erik Božík, Marek Šuppa
Резюме на русском
## Контекст
Slovak является низкоресурсной языковой системой в области Automatic Speech Recognition (ASR). Ограниченное количество доступных данных и полнотекстовых корпусов ставит перед исследователями серьезные проблемы при разработке эффективных ASR-систем. Эти проблемы становятся особенно актуальными в сфере диалоговых искусственных интеллектов, где необходима высокая точность распознавания речи. Наличие качественных, больших корпусов данных является ключевым фактором для отрасли. Однако, на данный момент, такие корпусы для словацкого языка редко. Мы предлагаем SloPalSpeech — крупнейший по размеру сейчас аср-датасет для словацкого языка, содержащий 2,806 часов речевых данных, полученных из парламентских протоколов. Данный корпус представляет собой значительный улучшение по размеру и качеству данных по сравнению с предыдущими датасетом.
## Метод
SloPalSpeech был создан с использованием робостых методов обработки данных. Длинные записи из парламентских протоколов были выровнены и разбиты на чистые, 30-секундных аудио-пары с текстовой меткой. Это позволило получить высококачественный датасет для обучения ASR-систем. Мы создали pipeline для сегментации и выравнивания, который обеспечивает высокую точность и значительную уменьшение шума в данных. Далее, мы применили этот pipeline для обработки и создания SloPalSpeech. Датасет был разделен на тренировочную и тестовую выборки, чтобы позволить разработке и оценке ASR-систем.
## Результаты
Мы провели ряд экспериментов с помощью SloPalSpeech, используя модель OpenAI Whisper. Мы показали, что fine-tuning моделей Whisper-small, Whisper-medium и Whisper-large-v3 на нашем датасете приводит к существенному улучшению в распознавании речи. Наиболее заметный результат — уменьшение Word Error Rate (WER) до 70% в сравнении с базовой моделью на некоторых стандартных тестах, таких как Common Voice и FLEURS. Мы доказали, что SloPalSpeech может эффективно использоваться для обучения ASR-систем, даже для таких низкоресурсных языков, как словацкий.
## Значимость
Наша работа имеет значительное значение для развития ASR-систем для низкоресурсных языков. Мы публикуем SloPalSpeech вместе с полностью отформатированными текстами — более 60 миллионов слов. Это дает возможность другим исследователям продолжать развивать и оптимизировать ASR-системы. Наш корпус также может быть применен в других областях, таких как диалоговые системы и переводчики, где точность распознавания речи критична.
## Выводы
Мы представили SloPalSpeech — крупнейший датасет для ASR в словацком языке. Наша работа показала, что этот датасет эффективно может использоваться для fine-tuning ASR-систем, даже для низкоресурсных языков. М
Abstract
Automatic Speech Recognition (ASR) for low-resource languages like Slovak is
hindered by the scarcity of training data. To address this, we introduce
SloPalSpeech, a new, large-scale Slovak ASR dataset containing 2,806 hours of
speech from parliamentary proceedings. We developed a robust processing
pipeline to align and segment long-form recordings into clean, 30-second
audio-transcript pairs suitable for model training. We use this dataset to
fine-tune several OpenAI Whisper models (small, medium, large-v3, and
large-v3-turbo), achieving significant Word Error Rate (WER) reductions on
standard Slovak benchmarks like Common Voice and FLEURS. For instance, the
fine-tuned Whisper-small model's WER dropped by up to 70\%, approaching the
baseline performance of the much larger Whisper-large-v3 model. To foster
future research in low-resource speech recognition, we publicly release the
complete SloPalSpeech dataset, the fully segmented transcripts (60 million
words), and all our fine-tuned models.
Ссылки и действия
Дополнительные ресурсы: