L3Cube-MahaSTS: A Marathi Sentence Similarity Dataset and Models
2508.21569v1
cs.CL, cs.LG
2025-09-02
Авторы:
Aishwarya Mirashi, Ananya Joshi, Raviraj Joshi
Резюме на русском
## Контекст
Обучение моделей NLP в низкоресурсных языках, таких как Маратхи, требует отличных наборов данных и эффективных моделей. Несмотря на рост интереса к моделям на базе представлений векторов для Маратхи, отсутствует достаточное количество хорошо отформатированных данных для задач сходства предложений (STS). Это снижает эффективность моделей и ставит под сомнение их моделируемую реальность. Чтобы принять участие в STS-задачах, разработчики принуждены использовать данные с неравномерным распределением меток, что приводит к биазу в модели и ее нестабильности. Этот проект стремится решить эти проблемы, создав новый набор данных STS и соответствующую модель.
## Метод
Для создания MahaSTS были собраны и проанализированы 16,860 пар предложений из различных источников, включая марафоны трансляций, социальные медиа и другие. Данные прошли тщательную верификацию и аннотацию для обеспечения точности и гармонии меток. Для обучения и оценки использовалась модель MahaSBERT-STS-v2, оптимизированная для регрессионной оценки сходства предложений. Эта модель является файн-тюнингом Sentence-BERT, адаптированного для Marathi. Для повышения стабильности и уменьшения биазы в распределении меток, данные распределены равномерно по шести бакетам по нормализованному диапазону от 0 до 5.
## Результаты
Эксперименты проводились с использованием MahaSTS и других моделей (MahaBERT, MuRIL, IndicBERT, IndicSBERT). Модель MahaSTS показала самые высокие результаты, достигая корреляции с истинными метками в тесте 0.71, что превосходит другие модели. Этот результат демонстрирует эффективность fine-tuning'а на хорошо отформатированном наборе данных и выделяет значимость структурированной аннотации в низкоресурсных языках.
## Значимость
Набор данных MahaSTS и модель MahaSBERT-STS-v2 открывают новые возможности для задач сходства предложений в Маратхи. Они могут использоваться в приложениях, таких как системы поиска, машинный перевод и анализ тональности. Эти решения также могут быть применены в других низкоресурсных языках, что подчеркивает широкую применимость и важность.
## Выводы
МахаSTS и MahaSBERT-STS-v2 демонстрируют эффективность структурированного подхода к созданию данных и моделей для низкоресурсных языков. Они обеспечивают стабильное и точное обучение для задач сходства предложений в Маратхи. Будущие исследования будут сфокусированы на расширении данных, улучшении точности моделей и развитии методов для других низкоресурсных языков.
Abstract
We present MahaSTS, a human-annotated Sentence Textual Similarity (STS)
dataset for Marathi, along with MahaSBERT-STS-v2, a fine-tuned Sentence-BERT
model optimized for regression-based similarity scoring. The MahaSTS dataset
consists of 16,860 Marathi sentence pairs labeled with continuous similarity
scores in the range of 0-5. To ensure balanced supervision, the dataset is
uniformly distributed across six score-based buckets spanning the full 0-5
range, thus reducing label bias and enhancing model stability. We fine-tune the
MahaSBERT model on this dataset and benchmark its performance against other
alternatives like MahaBERT, MuRIL, IndicBERT, and IndicSBERT. Our experiments
demonstrate that MahaSTS enables effective training for sentence similarity
tasks in Marathi, highlighting the impact of human-curated annotations,
targeted fine-tuning, and structured supervision in low-resource settings. The
dataset and model are publicly shared at
https://github.com/l3cube-pune/MarathiNLP
Ссылки и действия
Дополнительные ресурсы: