L3Cube-MahaSTS: A Marathi Sentence Similarity Dataset and Models

2508.21569v1 cs.CL, cs.LG 2025-09-02
Авторы:

Aishwarya Mirashi, Ananya Joshi, Raviraj Joshi

Резюме на русском

## Контекст Обучение моделей NLP в низкоресурсных языках, таких как Маратхи, требует отличных наборов данных и эффективных моделей. Несмотря на рост интереса к моделям на базе представлений векторов для Маратхи, отсутствует достаточное количество хорошо отформатированных данных для задач сходства предложений (STS). Это снижает эффективность моделей и ставит под сомнение их моделируемую реальность. Чтобы принять участие в STS-задачах, разработчики принуждены использовать данные с неравномерным распределением меток, что приводит к биазу в модели и ее нестабильности. Этот проект стремится решить эти проблемы, создав новый набор данных STS и соответствующую модель. ## Метод Для создания MahaSTS были собраны и проанализированы 16,860 пар предложений из различных источников, включая марафоны трансляций, социальные медиа и другие. Данные прошли тщательную верификацию и аннотацию для обеспечения точности и гармонии меток. Для обучения и оценки использовалась модель MahaSBERT-STS-v2, оптимизированная для регрессионной оценки сходства предложений. Эта модель является файн-тюнингом Sentence-BERT, адаптированного для Marathi. Для повышения стабильности и уменьшения биазы в распределении меток, данные распределены равномерно по шести бакетам по нормализованному диапазону от 0 до 5. ## Результаты Эксперименты проводились с использованием MahaSTS и других моделей (MahaBERT, MuRIL, IndicBERT, IndicSBERT). Модель MahaSTS показала самые высокие результаты, достигая корреляции с истинными метками в тесте 0.71, что превосходит другие модели. Этот результат демонстрирует эффективность fine-tuning'а на хорошо отформатированном наборе данных и выделяет значимость структурированной аннотации в низкоресурсных языках. ## Значимость Набор данных MahaSTS и модель MahaSBERT-STS-v2 открывают новые возможности для задач сходства предложений в Маратхи. Они могут использоваться в приложениях, таких как системы поиска, машинный перевод и анализ тональности. Эти решения также могут быть применены в других низкоресурсных языках, что подчеркивает широкую применимость и важность. ## Выводы МахаSTS и MahaSBERT-STS-v2 демонстрируют эффективность структурированного подхода к созданию данных и моделей для низкоресурсных языков. Они обеспечивают стабильное и точное обучение для задач сходства предложений в Маратхи. Будущие исследования будут сфокусированы на расширении данных, улучшении точности моделей и развитии методов для других низкоресурсных языков.

Abstract

We present MahaSTS, a human-annotated Sentence Textual Similarity (STS) dataset for Marathi, along with MahaSBERT-STS-v2, a fine-tuned Sentence-BERT model optimized for regression-based similarity scoring. The MahaSTS dataset consists of 16,860 Marathi sentence pairs labeled with continuous similarity scores in the range of 0-5. To ensure balanced supervision, the dataset is uniformly distributed across six score-based buckets spanning the full 0-5 range, thus reducing label bias and enhancing model stability. We fine-tune the MahaSBERT model on this dataset and benchmark its performance against other alternatives like MahaBERT, MuRIL, IndicBERT, and IndicSBERT. Our experiments demonstrate that MahaSTS enables effective training for sentence similarity tasks in Marathi, highlighting the impact of human-curated annotations, targeted fine-tuning, and structured supervision in low-resource settings. The dataset and model are publicly shared at https://github.com/l3cube-pune/MarathiNLP

Ссылки и действия