Benchmarking Hindi LLMs: A New Suite of Datasets and a Comparative Analysis

2508.19831v1 cs.CL, cs.LG 2025-08-29

Авторы:

Anusha Kamath, Kanishk Singla, Rakesh Paul, Raviraj Joshi, Utkarsh Vaidya, Sanjay Singh Chauhan, Niranjan Wartikar

Резюме на русском

## Контекст Обучение бо LLM в языках с недостатком ресурсов, таких как хинди, становится сложным из-за отсутствия качественных бенчмарков. Наличие этих ресурсов необходимо для точного определения силы и зон слабости моделей. Основная проблема заключается в том, что простой перевод данных на английский язык в хинди не учитывает важные лингвистические и культурные аспекты, которые влияют на производительность LLMs в этом языке. ## Метод Разработанная методология заключается в создании бенчмарков с использованием трех этапов: (1) изначальное создание данных через прямую аннотацию, (2) перевод на хинди с последующим верификационным процессом, (3) создание баз данных, которые покрывают различные аспекты инструкционного моделирования, включая общий разговор, логическое мышление и творческие задачи. Данные были созданы с помощью хинди-разговорных моделей, были проверены несколькими экспертами на языке, и включают в себя многоуровневую верификацию. ## Результаты В ходе работы были разработаны и протестированы пять новых бенчмарков: IFEval-Hi, MT-Bench-Hi, GSM8K-Hi, ChatRAG-Hi, BFCL-Hi. Эти бенчмарки были использованы для оценки 10 LLMs, включая локальные модели на хинди, такие как XLM-R и MuRIL. Отчет показывает разницу в качестве данных и возможности моделей, а также детальные сравнения в различных задачах моделирования. ## Значимость Разработанные бенчмарки позволяют улучшить понимание и поддержку LLMs в хинди. Они могут быть использованы для развития новых моделей, оценки моделей и создания баз данных в других недостатке ресурсов языках. Этот подход может помочь в улучшении общего качества моделей и их применения в различных сферах, включая работу с текстом, разговорные системы и развитие инфраструктуры языка. ## Выводы Представленные бенчмарки созданы с целью улучшения поддержки хинди в LLMs. Нами был установлен новый подход к созданию бенчмарков, который может быть использован в других низкоресурсных языках. Наши результаты указывают на необходимость развития более качественных бенчмарков для улучшения конкретных языковых моделей и их работы в реальных условиях.

Abstract

Evaluating instruction-tuned Large Language Models (LLMs) in Hindi is challenging due to a lack of high-quality benchmarks, as direct translation of English datasets fails to capture crucial linguistic and cultural nuances. To address this, we introduce a suite of five Hindi LLM evaluation datasets: IFEval-Hi, MT-Bench-Hi, GSM8K-Hi, ChatRAG-Hi, and BFCL-Hi. These were created using a methodology that combines from-scratch human annotation with a translate-and-verify process. We leverage this suite to conduct an extensive benchmarking of open-source LLMs supporting Hindi, providing a detailed comparative analysis of their current capabilities. Our curation process also serves as a replicable methodology for developing benchmarks in other low-resource languages.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Benchmarking Hindi LLMs: A New Suite of Datasets and a Comparative Analysis

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

A Preliminary Study on the Promises and Challenges of Native Top-$k$ Sparse Atte...

Computational Linguistics Meets Libyan Dialect: A Study on Dialect Identificatio...

Sarcasm Detection on Reddit Using Classical Machine Learning and Feature Enginee...

Four Over Six: More Accurate NVFP4 Quantization with Adaptive Block Scaling

Enhancing Job Matching: Occupation, Skill and Qualification Linking with the ESC...

Навигация