Benchmarking Hindi LLMs: A New Suite of Datasets and a Comparative Analysis
2508.19831v1
cs.CL, cs.LG
2025-08-29
Авторы:
Anusha Kamath, Kanishk Singla, Rakesh Paul, Raviraj Joshi, Utkarsh Vaidya, Sanjay Singh Chauhan, Niranjan Wartikar
Резюме на русском
## Контекст
Обучение бо LLM в языках с недостатком ресурсов, таких как хинди, становится сложным из-за отсутствия качественных бенчмарков. Наличие этих ресурсов необходимо для точного определения силы и зон слабости моделей. Основная проблема заключается в том, что простой перевод данных на английский язык в хинди не учитывает важные лингвистические и культурные аспекты, которые влияют на производительность LLMs в этом языке.
## Метод
Разработанная методология заключается в создании бенчмарков с использованием трех этапов: (1) изначальное создание данных через прямую аннотацию, (2) перевод на хинди с последующим верификационным процессом, (3) создание баз данных, которые покрывают различные аспекты инструкционного моделирования, включая общий разговор, логическое мышление и творческие задачи. Данные были созданы с помощью хинди-разговорных моделей, были проверены несколькими экспертами на языке, и включают в себя многоуровневую верификацию.
## Результаты
В ходе работы были разработаны и протестированы пять новых бенчмарков: IFEval-Hi, MT-Bench-Hi, GSM8K-Hi, ChatRAG-Hi, BFCL-Hi. Эти бенчмарки были использованы для оценки 10 LLMs, включая локальные модели на хинди, такие как XLM-R и MuRIL. Отчет показывает разницу в качестве данных и возможности моделей, а также детальные сравнения в различных задачах моделирования.
## Значимость
Разработанные бенчмарки позволяют улучшить понимание и поддержку LLMs в хинди. Они могут быть использованы для развития новых моделей, оценки моделей и создания баз данных в других недостатке ресурсов языках. Этот подход может помочь в улучшении общего качества моделей и их применения в различных сферах, включая работу с текстом, разговорные системы и развитие инфраструктуры языка.
## Выводы
Представленные бенчмарки созданы с целью улучшения поддержки хинди в LLMs. Нами был установлен новый подход к созданию бенчмарков, который может быть использован в других низкоресурсных языках. Наши результаты указывают на необходимость развития более качественных бенчмарков для улучшения конкретных языковых моделей и их работы в реальных условиях.
Abstract
Evaluating instruction-tuned Large Language Models (LLMs) in Hindi is
challenging due to a lack of high-quality benchmarks, as direct translation of
English datasets fails to capture crucial linguistic and cultural nuances. To
address this, we introduce a suite of five Hindi LLM evaluation datasets:
IFEval-Hi, MT-Bench-Hi, GSM8K-Hi, ChatRAG-Hi, and BFCL-Hi. These were created
using a methodology that combines from-scratch human annotation with a
translate-and-verify process. We leverage this suite to conduct an extensive
benchmarking of open-source LLMs supporting Hindi, providing a detailed
comparative analysis of their current capabilities. Our curation process also
serves as a replicable methodology for developing benchmarks in other
low-resource languages.
Ссылки и действия
Дополнительные ресурсы: