GRILE: A Benchmark for Grammar Reasoning and Explanation in Romanian LLMs

2508.14279v1 cs.CL, cs.CY 2025-08-22
Авторы:

Adrian-Marius Dumitran, Alexandra-Mihaela Danila, Angela-Liliana Dumitran

Резюме на русском

## Контекст LLMs (Large Language Models) стали революционным инструментом в области NLP (Natural Language Processing), демонстрируя выдающиеся результаты в различных задачах. Однако их потенциал в обучающих приложениях, особенно для низкороутинных языков, остается недостаточно исследованным. Это значит, что существуют серьезные проблемы в понимании и моделировании грамматических правил и удобстве использования в образовательных задачах. Недостаток инструментов для проверки грамматических навыков в таких языках, таких как румынский, создает ограничения для развития образовательных ресурсов. Наша мотивация заключается в разработке комплексного бенчмарка, который не только проверяет грамматические навыки, но и способствует улучшению языковых моделей, оказавшихся недостаточно эффективными в этой области. ## Метод Мы представляем **GRILE (Grammar Romanian Inference and Language Explanations)** — первый открытый бенчмарк, содержащий 1,151 многовикианских множественных-выборочных вопросов, собранных из румынских высокостакетовых экзаменов (национальная оценка, бакалавриат, вступительные экзамены). Бенчмарк организован таким образом, чтобы проверить две главные способности: корректность выбора ответов и глубину грамматических рассуждений. Мы использовали семь моделей, от многоязычных до уникально румынских, для проверки их способности решать задачи и выводить обоснованные языковые объяснения. Для экспертного анализа статьи содержит результаты работы моделей, включая точность, частоту ошибок и соблюдение норм грамматики. ## Результаты В результатах проведенных экспериментов, мы показали, что **Gemini 2.5 Pro** достигает точности в 83%, в то время как другие модели, особенно открытые, остаются значительно ниже — не выше 65%. Более того, 48% их выводов содержат фактические или образовательные ошибки, проверенные экспертами. Анализ ошибок показал систематические слабые места в морфологии румынского языка и несоответствии последним нормам орфографии (DOOM3). Наши результаты подтверждают, что главные проблемы заключаются в недостаточной моделировании грамматических явлений и недостаточно надежной генерации языковых объяснений. ## Значимость Результаты показывают, что GRILE может использоваться в различных областях: в образовательных технологиях для тестирования и развития грамматических навыков, в создании более надежных языковых моделей, и в проверке и исправлении языковых ресурсов. Этот бенчмарк мотивирует будущие исследования в области "надежного" обучения языкам, особенно для низкороутинных языков, и демонстрирует потенциал в развитии новых алгоритмов для генераци

Abstract

LLMs (Large language models) have revolutionized NLP (Natural Language Processing), yet their pedagogical value for low-resource languages remains unclear. We present GRILE (Grammar Romanian Inference and Language Explanations) , the first open benchmark of 1,151 multiple-choice questions harvested from Romanian high-stakes exams (National Evaluation, Baccalaureate, university admissions). GRILE enables us to probe two complementary abilities of seven state-of-the-art multilingual and Romanian-specific LLMs: (i) selecting the correct answer, and (ii) producing linguistically accurate explanations. While Gemini 2.5 Pro reaches 83% accuracy, most open-weight models stay below 65%, and 48% of their explanations contain factual or pedagogical flaws according to expert review. A detailed error analysis pinpoints systematic weaknesses in morphology and in applying the latest DOOM3 orthographic norms. All data, code and a public web demo are released to catalyze future research. Our findings expose open challenges for trustworthy educational NLP in low-resource settings and establish GRILE as a new test-bed for controllable explanation generation and evaluation.

Ссылки и действия