GRILE: A Benchmark for Grammar Reasoning and Explanation in Romanian LLMs
2508.14279v1
cs.CL, cs.CY
2025-08-22
Авторы:
Adrian-Marius Dumitran, Alexandra-Mihaela Danila, Angela-Liliana Dumitran
Резюме на русском
## Контекст
LLMs (Large Language Models) стали революционным инструментом в области NLP (Natural Language Processing), демонстрируя выдающиеся результаты в различных задачах. Однако их потенциал в обучающих приложениях, особенно для низкороутинных языков, остается недостаточно исследованным. Это значит, что существуют серьезные проблемы в понимании и моделировании грамматических правил и удобстве использования в образовательных задачах. Недостаток инструментов для проверки грамматических навыков в таких языках, таких как румынский, создает ограничения для развития образовательных ресурсов. Наша мотивация заключается в разработке комплексного бенчмарка, который не только проверяет грамматические навыки, но и способствует улучшению языковых моделей, оказавшихся недостаточно эффективными в этой области.
## Метод
Мы представляем **GRILE (Grammar Romanian Inference and Language Explanations)** — первый открытый бенчмарк, содержащий 1,151 многовикианских множественных-выборочных вопросов, собранных из румынских высокостакетовых экзаменов (национальная оценка, бакалавриат, вступительные экзамены). Бенчмарк организован таким образом, чтобы проверить две главные способности: корректность выбора ответов и глубину грамматических рассуждений. Мы использовали семь моделей, от многоязычных до уникально румынских, для проверки их способности решать задачи и выводить обоснованные языковые объяснения. Для экспертного анализа статьи содержит результаты работы моделей, включая точность, частоту ошибок и соблюдение норм грамматики.
## Результаты
В результатах проведенных экспериментов, мы показали, что **Gemini 2.5 Pro** достигает точности в 83%, в то время как другие модели, особенно открытые, остаются значительно ниже — не выше 65%. Более того, 48% их выводов содержат фактические или образовательные ошибки, проверенные экспертами. Анализ ошибок показал систематические слабые места в морфологии румынского языка и несоответствии последним нормам орфографии (DOOM3). Наши результаты подтверждают, что главные проблемы заключаются в недостаточной моделировании грамматических явлений и недостаточно надежной генерации языковых объяснений.
## Значимость
Результаты показывают, что GRILE может использоваться в различных областях: в образовательных технологиях для тестирования и развития грамматических навыков, в создании более надежных языковых моделей, и в проверке и исправлении языковых ресурсов. Этот бенчмарк мотивирует будущие исследования в области "надежного" обучения языкам, особенно для низкороутинных языков, и демонстрирует потенциал в развитии новых алгоритмов для генераци
Abstract
LLMs (Large language models) have revolutionized NLP (Natural Language
Processing), yet their pedagogical value for low-resource languages remains
unclear. We present GRILE (Grammar Romanian Inference and Language
Explanations) , the first open benchmark of 1,151 multiple-choice questions
harvested from Romanian high-stakes exams (National Evaluation, Baccalaureate,
university admissions). GRILE enables us to probe two complementary abilities
of seven state-of-the-art multilingual and Romanian-specific LLMs: (i)
selecting the correct answer, and (ii) producing linguistically accurate
explanations. While Gemini 2.5 Pro reaches 83% accuracy, most open-weight
models stay below 65%, and 48% of their explanations contain factual or
pedagogical flaws according to expert review. A detailed error analysis
pinpoints systematic weaknesses in morphology and in applying the latest DOOM3
orthographic norms. All data, code and a public web demo are released to
catalyze future research. Our findings expose open challenges for trustworthy
educational NLP in low-resource settings and establish GRILE as a new test-bed
for controllable explanation generation and evaluation.
Ссылки и действия
Дополнительные ресурсы: