L3Cube-IndicHeadline-ID: A Dataset for Headline Identification and Semantic Evaluation in Low-Resource Indian Languages

2509.02503v1 cs.CL, cs.LG 2025-09-05

Авторы:

Nishant Tanksale, Tanmay Kokate, Darshan Gohad, Sarvadnyaa Barate, Raviraj Joshi

Резюме на русском

#### Контекст В последние годы роль языковых моделей в области естественного языкового процессинга (НЛП) стала важной для решения задач, включая семантическую оценку и идентификацию заголовков в новостных статьях. Однако большая часть работ по НЛП сосредоточена на высокоресурсных языках, тогда как в низкоресурсных языках, таких как языки Индии, существуют существенные проблемы с ресурсами и бенчмарками. Эти недостатки порождают сложности в создании моделей, которые могли бы эффективно работать в таких языках. #### Метод Мы предлагаем L3Cube-IndicHeadline-ID, датасет, состоящий из 20 000 новостных статей на 10 низкоресурсных языках Индии (маратхи, хинди, тамильский, гуджарати, оди, каннада, малаялам, пунджаби, таджикский, бенгальский и английский) и 4 версиями заголовков: оригинального, семантически похожего, лексически похожего и не относящегося к теме. Датасет предназначен для тестирования тонкой семантической оценки и выбора правильного заголовка с помощью семантической схожести статей и заголовков. Мы используем метрику cosine similarity для оценки моделей. #### Результаты Мы провели эксперименты с несколькими типами моделей НЛП, включая многоязычные и языково-конкретные модели. Наши результаты показали, что многоязычные модели обеспечивают более высокую точность и постоянство по сравнению с моделями, ориентированными только на конкретный язык. Данные показатели указывают на необходимость дальнейшего исследования в области семантической оценки в низкоресурсных языках. #### Значимость Датасет L3Cube-IndicHeadline-ID может использоваться для нескольких задач, включая вопрос-ответ, классификацию заголовков и тестирование моделей семантического понимания. Он может стать важной ресурсной платформой для повышения эффективности языковых моделей в низкоресурсных языках. Это также может положительно сказаться на развитии систем Retrieval-Augmented Generation (RAG), которые часто используются в задачах семантического понимания. #### Выводы Наш датасет L3Cube-IndicHeadline-ID представляет собой значительный вклад в область низкоресурсных языков, особенно в Индии. Мы планируем продолжить работу над улучшением этого датасета и расширением применений в различных НЛП-задачах, чтобы помочь улучшить семантическое понимание в низкоресурсных языках.

Abstract

Semantic evaluation in low-resource languages remains a major challenge in NLP. While sentence transformers have shown strong performance in high-resource settings, their effectiveness in Indic languages is underexplored due to a lack of high-quality benchmarks. To bridge this gap, we introduce L3Cube-IndicHeadline-ID, a curated headline identification dataset spanning ten low-resource Indic languages: Marathi, Hindi, Tamil, Gujarati, Odia, Kannada, Malayalam, Punjabi, Telugu, Bengali and English. Each language includes 20,000 news articles paired with four headline variants: the original, a semantically similar version, a lexically similar version, and an unrelated one, designed to test fine-grained semantic understanding. The task requires selecting the correct headline from the options using article-headline similarity. We benchmark several sentence transformers, including multilingual and language-specific models, using cosine similarity. Results show that multilingual models consistently perform well, while language-specific models vary in effectiveness. Given the rising use of similarity models in Retrieval-Augmented Generation (RAG) pipelines, this dataset also serves as a valuable resource for evaluating and improving semantic understanding in such applications. Additionally, the dataset can be repurposed for multiple-choice question answering, headline classification, or other task-specific evaluations of LLMs, making it a versatile benchmark for Indic NLP. The dataset is shared publicly at https://github.com/l3cube-pune/indic-nlp

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

L3Cube-IndicHeadline-ID: A Dataset for Headline Identification and Semantic Evaluation in Low-Resource Indian Languages

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

A Preliminary Study on the Promises and Challenges of Native Top-$k$ Sparse Atte...

Computational Linguistics Meets Libyan Dialect: A Study on Dialect Identificatio...

Sarcasm Detection on Reddit Using Classical Machine Learning and Feature Enginee...

Four Over Six: More Accurate NVFP4 Quantization with Adaptive Block Scaling

Enhancing Job Matching: Occupation, Skill and Qualification Linking with the ESC...

Навигация