WolBanking77: Wolof Banking Speech Intent Classification Dataset
2509.19271v1
cs.CL, cs.AI, cs.LG
2025-09-25
Авторы:
Abdou Karim Kandji, Frédéric Precioso, Cheikh Ba, Samba Ndiaye, Augustin Ndione
Резюме на русском
#### Контекст
На текущий момент большинство исследований в области классификации намерений (intent classification) сосредоточены на высокоресурсных языках, что приводит к недостатку данных и моделей для низкоресурсных языков. Это особенно актуально для регионов, где значительная часть населения говорит на языках, которые чаще всего говорятся, но мало пишутся или читаются. Например, в Сенегале около 90% населения говорит на языке Волоф, при том, что иллютереность в стране достигает 42%. Волоф широко распространен в целом регионе Западной Африки и говорится более 10 миллионами людей. Данная работа предлагает WolBanking77 — большую выборку данных для классификации намерений в банковской сфере на языке Волоф, чтобы повысить исследовательские возможности в этой области.
#### Метод
Методология разработки WolBanking77 основывается на сборе и подготовке данных в области банковских услуг на языке Волоф. Для создания данных использовались знания по банковским услугам, а дополнительные банковские сценарии были созданы для увеличения разнообразия данных. Данные были проверены качеством и разделены на тренировочные, валидационные и тестовые выборки. Также были проведены эксперименты с использованием различных моделей классификации намерений (text-based и voice-based), чтобы оценить качество работы на данных. Архитектура использовалась стандартная для классификации текстовых данных, но была адаптирована для использования с аудиоданными.
#### Результаты
На WolBanking77 были проведены эксперименты с различными моделями, включая текстовые модели (такие как BERT) и аудиомодели (такие как DeepSpeech). Оценены метрики F1-score и Word Error Rate (WER) для текстовых и звуковых моделей. Была проведена сравнительная аналитика результатов, что подтвердило эффективность моделей на данной выборке. Также был создан подробный анализ содержания данных, включая распределение классов и сложность выборки. Эти результаты демонстрируют высокую точность и общую эффективность моделей на данной базе.
#### Значимость
Данный ресурс может быть полезен для развития искусственного интеллекта в регионе, особенно для низкоресурсных языков. WolBanking77 открывает новые возможности для разработки моделей классификации намерений в сфере банковских услуг на Волофе, что может способствовать улучшению банковских сервисов в регионе. Более широко, данный ресурс может быть использован для развития технологий естественного языка в низкоресурсных регионах, что поможет снизить языковые барьеры в различных областях, включая банковское обслуживание, медицину и образование.
#### Выводы
Работа доказала,
Abstract
Intent classification models have made a lot of progress in recent years.
However, previous studies primarily focus on high-resource languages datasets,
which results in a gap for low-resource languages and for regions with a high
rate of illiterate people where languages are more spoken than read or written.
This is the case in Senegal, for example, where Wolof is spoken by around 90\%
of the population, with an illiteracy rate of 42\% for the country. Wolof is
actually spoken by more than 10 million people in West African region. To
tackle such limitations, we release a Wolof Intent Classification Dataset
(WolBanking77), for academic research in intent classification. WolBanking77
currently contains 9,791 text sentences in the banking domain and more than 4
hours of spoken sentences. Experiments on various baselines are conducted in
this work, including text and voice state-of-the-art models. The results are
very promising on this current dataset. This paper also provides detailed
analyses of the contents of the data. We report baseline f1-score and word
error rate metrics respectively on NLP and ASR models trained on WolBanking77
dataset and also comparisons between models. We plan to share and conduct
dataset maintenance, updates and to release open-source code.
Ссылки и действия
Дополнительные ресурсы: