Comparative Study of Pre-Trained BERT and Large Language Models for Code-Mixed Named Entity Recognition
2509.02514v1
cs.CL, cs.LG
2025-09-05
Авторы:
Mayur Shirke, Amey Shembade, Pavan Thorat, Madhushri Wagh, Raviraj Joshi
Резюме на русском
Да, вот подробное резюме научной статьи в требуемом формате:
## Контекст
Code-mixed языковые модели, особенно в контексте Hindi-English (Hinglish), требуют особого подхода из-за особенностей такого текста: смешанный синтаксис, транслитерация, и частая смена языка. Нейрометрическое распознавание сущностей (NER) в таких текстах является сложной задачей. Существующие модели либо оптимизированы для monolingual или multilingual текстов, либо не приспособлены для код-миксед текстов. Это ставит перед исследователями задачу выявления моделей, которые могут достигать высокую точность при работе с код-миксед NER.
## Метод
Мы провели эксперименты с тремя код-миксед моделями BERT: HingBERT, HingMBERT, и HingRoBERTa, которые были прикладным образом приспособлены для работы с текстом на Hinglish. Также использовались несколько моделей многоязычных BERT, включая BERT Base Cased, IndicBERT, RoBERTa, и MuRIL, которые были прикладно приспособлены для multilingual NER. Наконец, мы использовали Google Gemini в zero-shot режиме, для которого были скрыты NER-теги, чтобы оценить его обобщающую способность. Все модели были протестированы на Hinglish NER dataset, с использованием Precision, Recall и F1-score.
## Результаты
Наши результаты показали, что код-миксед модели, в частности HingRoBERTa и HingBERT, показали значительное преимущество перед некоторыми моделями многоязычных BERT, включая Google Gemini. Это связано с domain-specific pretraining, который позволяет этим моделям быть более эффективными в данной задаче. Но некоторые модели многоязычных BERT, такие как RoBERTa и MuRIL, показали приемлемую точность, но не приспособлены для код-миксед NER. Google Gemini, несмотря на то, что была нетренирована в контексте NER, реализовала высокую точность в zero-shot режиме, подчеркнув силу общей generalization новых LLMs.
## Значимость
Области применения данного исследования включают в себя разработку моделей NER для Hinglish и других code-mixed текстов, включая различные языковые комбинации. Модели HingBERT и HingRoBERTa имеют высокую значимость для коммерческих приложений, таких как chatbots, системы отзывов, и другие сервисы, которые работают с code-mixed текстом. Особенное преимущество код-миксед моделей заключается в их domain-specific pretraining, который позволяет лучше работать в этой сфере по сравнению с generalized моделями.
## Выводы
Мы демонстрируем, что code-mixed модели, особенно HingRoBERTa и HingBERT, значительно outperform общие многоязычные модели, такие как RoBERTa и MuRIL, а также closed-source LLMs, включая Google Gemini. Это мотивирует дальнейшие исследования в области код-миксед моделей и дает перспективы для дальнейшего улучшения этих моделей, с целью достижения более высокой точности и общей generalization.
Это максимально подробное резюме научной статьи, кото
Abstract
Named Entity Recognition (NER) in code-mixed text, particularly Hindi-English
(Hinglish), presents unique challenges due to informal structure,
transliteration, and frequent language switching. This study conducts a
comparative evaluation of code-mixed fine-tuned models and non-code-mixed
multilingual models, along with zero-shot generative large language models
(LLMs). Specifically, we evaluate HingBERT, HingMBERT, and HingRoBERTa (trained
on code-mixed data), and BERT Base Cased, IndicBERT, RoBERTa and MuRIL (trained
on non-code-mixed multilingual data). We also assess the performance of Google
Gemini in a zero-shot setting using a modified version of the dataset with NER
tags removed. All models are tested on a benchmark Hinglish NER dataset using
Precision, Recall, and F1-score. Results show that code-mixed models,
particularly HingRoBERTa and HingBERT-based fine-tuned models, outperform
others - including closed-source LLMs like Google Gemini - due to
domain-specific pretraining. Non-code-mixed models perform reasonably but show
limited adaptability. Notably, Google Gemini exhibits competitive zero-shot
performance, underlining the generalization strength of modern LLMs. This study
provides key insights into the effectiveness of specialized versus generalized
models for code-mixed NER tasks.
Ссылки и действия
Дополнительные ресурсы: