Comparative Study of Pre-Trained BERT and Large Language Models for Code-Mixed Named Entity Recognition

2509.02514v1 cs.CL, cs.LG 2025-09-05
Авторы:

Mayur Shirke, Amey Shembade, Pavan Thorat, Madhushri Wagh, Raviraj Joshi

Резюме на русском

Да, вот подробное резюме научной статьи в требуемом формате: ## Контекст Code-mixed языковые модели, особенно в контексте Hindi-English (Hinglish), требуют особого подхода из-за особенностей такого текста: смешанный синтаксис, транслитерация, и частая смена языка. Нейрометрическое распознавание сущностей (NER) в таких текстах является сложной задачей. Существующие модели либо оптимизированы для monolingual или multilingual текстов, либо не приспособлены для код-миксед текстов. Это ставит перед исследователями задачу выявления моделей, которые могут достигать высокую точность при работе с код-миксед NER. ## Метод Мы провели эксперименты с тремя код-миксед моделями BERT: HingBERT, HingMBERT, и HingRoBERTa, которые были прикладным образом приспособлены для работы с текстом на Hinglish. Также использовались несколько моделей многоязычных BERT, включая BERT Base Cased, IndicBERT, RoBERTa, и MuRIL, которые были прикладно приспособлены для multilingual NER. Наконец, мы использовали Google Gemini в zero-shot режиме, для которого были скрыты NER-теги, чтобы оценить его обобщающую способность. Все модели были протестированы на Hinglish NER dataset, с использованием Precision, Recall и F1-score. ## Результаты Наши результаты показали, что код-миксед модели, в частности HingRoBERTa и HingBERT, показали значительное преимущество перед некоторыми моделями многоязычных BERT, включая Google Gemini. Это связано с domain-specific pretraining, который позволяет этим моделям быть более эффективными в данной задаче. Но некоторые модели многоязычных BERT, такие как RoBERTa и MuRIL, показали приемлемую точность, но не приспособлены для код-миксед NER. Google Gemini, несмотря на то, что была нетренирована в контексте NER, реализовала высокую точность в zero-shot режиме, подчеркнув силу общей generalization новых LLMs. ## Значимость Области применения данного исследования включают в себя разработку моделей NER для Hinglish и других code-mixed текстов, включая различные языковые комбинации. Модели HingBERT и HingRoBERTa имеют высокую значимость для коммерческих приложений, таких как chatbots, системы отзывов, и другие сервисы, которые работают с code-mixed текстом. Особенное преимущество код-миксед моделей заключается в их domain-specific pretraining, который позволяет лучше работать в этой сфере по сравнению с generalized моделями. ## Выводы Мы демонстрируем, что code-mixed модели, особенно HingRoBERTa и HingBERT, значительно outperform общие многоязычные модели, такие как RoBERTa и MuRIL, а также closed-source LLMs, включая Google Gemini. Это мотивирует дальнейшие исследования в области код-миксед моделей и дает перспективы для дальнейшего улучшения этих моделей, с целью достижения более высокой точности и общей generalization. Это максимально подробное резюме научной статьи, кото

Abstract

Named Entity Recognition (NER) in code-mixed text, particularly Hindi-English (Hinglish), presents unique challenges due to informal structure, transliteration, and frequent language switching. This study conducts a comparative evaluation of code-mixed fine-tuned models and non-code-mixed multilingual models, along with zero-shot generative large language models (LLMs). Specifically, we evaluate HingBERT, HingMBERT, and HingRoBERTa (trained on code-mixed data), and BERT Base Cased, IndicBERT, RoBERTa and MuRIL (trained on non-code-mixed multilingual data). We also assess the performance of Google Gemini in a zero-shot setting using a modified version of the dataset with NER tags removed. All models are tested on a benchmark Hinglish NER dataset using Precision, Recall, and F1-score. Results show that code-mixed models, particularly HingRoBERTa and HingBERT-based fine-tuned models, outperform others - including closed-source LLMs like Google Gemini - due to domain-specific pretraining. Non-code-mixed models perform reasonably but show limited adaptability. Notably, Google Gemini exhibits competitive zero-shot performance, underlining the generalization strength of modern LLMs. This study provides key insights into the effectiveness of specialized versus generalized models for code-mixed NER tasks.

Ссылки и действия