Stemming -- The Evolution and Current State with a Focus on Bangla

2508.15711v1 cs.CL, cs.IR 2025-08-23

Авторы:

Abhijit Paul, Mashiat Amin Farin, Sharif Md. Abdullah, Ahmedul Kabir, Zarif Masud, Shebuti Rayana

Резюме на русском

## Контекст Bangla, семьийный язык мира с 300 миллионами носителей, сталкивается с цифровой недостаточностью из-за ограниченных ресурсов и отсутствия аннотируемых данных. Stemming, критический этап предобработки текста, крайне важен для низкоресурсных языков с высокой морфологической сложностью, таких как Bangla. Он позволяет уменьшить сложность алгоритмов и машинных обучения, сократив количество рассматриваемых слов. Изучение stemming-алгоритмов в рамках Bangla позволяет проанализировать их эффективность в морфологическом разборе, а также выявить пробелы в нынешних исследованиях. ## Метод Подход к исследованию включает: 1. Анализ существующих stemming-методов и их применения к языку Bangla. 2. Описание технических решений, включая архитектуру алгоритмов и их применения. 3. Оценка эффективности различных методов с помощью точности и разнообразия экспериментальных данных. 4. Определение метрик, которые могут лучше отражать реальную эффективность stemming-алгоритмов. ## Результаты Изучены данные из различных баз ресурсов и статей. Отмечается, что нынешние stemming-способы для Bangla часто недооценивают морфологические варианты слов. Найдено, что многие современные реализации недоступны для повторного использования. Эксперименты показали, что некоторые алгоритмы могут значительно упростить обработку текста в низкоресурсных условиях, но требуют доработки под разнообразие морфологических форм. ## Значимость Stemming играет ключевую роль в таких областях, как: - Обработка естественного языка (NLP). - Поиск и классификация текста. - Машинное обучение и анализ данных. В Bangla, эффективный stemming может уменьшить сложность моделей и улучшить их точность. Более того, развитие Bangla stemmers может способствовать увеличению доступности данных для языка и повышению его цифрового вовлечения. ## Выводы На основе исследования выделены следующие выводы: 1. Эффективность stemming-алгоритмов для Bangla должна строиться на понимании разнообразия морфологических форм. 2. Необходимо развитие доступных и реплицируемых реализаций для поддержки исследований. 3. Необходимо привлечение большего количества ресурсов для создания аннотированных данных и создания моделей, отвечающих реальным потребностям языка. Будущие исследования должны сфокусироваться на создании более развитых Bangla stemmers, которые могут быть широко применены в сфере языковых технологий.

Abstract

Bangla, the seventh most widely spoken language worldwide with 300 million native speakers, faces digital under-representation due to limited resources and lack of annotated datasets. Stemming, a critical preprocessing step in language analysis, is essential for low-resource, highly-inflectional languages like Bangla, because it can reduce the complexity of algorithms and models by significantly reducing the number of words the algorithm needs to consider. This paper conducts a comprehensive survey of stemming approaches, emphasizing the importance of handling morphological variants effectively. While exploring the landscape of Bangla stemming, it becomes evident that there is a significant gap in the existing literature. The paper highlights the discontinuity from previous research and the scarcity of accessible implementations for replication. Furthermore, it critiques the evaluation methodologies, stressing the need for more relevant metrics. In the context of Bangla's rich morphology and diverse dialects, the paper acknowledges the challenges it poses. To address these challenges, the paper suggests directions for Bangla stemmer development. It concludes by advocating for robust Bangla stemmers and continued research in the field to enhance language analysis and processing.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Stemming -- The Evolution and Current State with a Focus on Bangla

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

MMAG: Mixed Memory-Augmented Generation for Large Language Models Applications

AR-Med: Automated Relevance Enhancement in Medical Search via LLM-Driven Informa...

Mitigating the Threshold Priming Effect in Large Language Model-Based Relevance ...

MMAG: Mixed Memory-Augmented Generation for Large Language Models Applications

Towards Unification of Hallucination Detection and Fact Verification for Large L...

Навигация