## Контекст
LLMs (Large Language Models) стали революционным инструментом в области NLP (Natural Language Processing), демонстрируя выдающиеся результаты в различных задачах. Однако их потенциал в обучающих приложениях, особенно для низкороутинных языков, остается недостаточно исследованным. Это значит, что существуют серьезные проблемы в понимании и моделировании грамматических правил и удобстве использования в образовательных задачах. Недостаток инструментов для проверки грамматических навыков в таких языках, таких как румынский, создает ограничения для развития образовательных ресурсов. Наша мотивация заключается в разработке комплексного бенчмарка, который не только проверяет грамматические навыки, но и способствует улучшению языковых моделей, оказавшихся недостаточно эффективными в этой области.
## Метод
Мы представляем **GRILE (Grammar Romanian Inference and Language Explanations)** — первый открытый бенчмарк, содержащий 1,151 многовикианских множественных-выборочных вопросов, собранных из румынских высокостакетовых экзаменов (национальная оценка, бакалавриат, вступительные экзамены). Бенчмарк организован таким образом, чтобы проверить две главные способности: корректность выбора ответов и глубину грамматических рассуждений. Мы использовали семь моделей, от многоязычных до уникально румынских, для проверки их способности решать задачи и выводить обоснованные языковые объяснения. Для экспертного анализа статьи содержит результаты работы моделей, включая точность, частоту ошибок и соблюдение норм грамматики.
## Результаты
В результатах проведенных экспериментов, мы показали, что **Gemini 2.5 Pro** достигает точности в 83%, в то время как другие модели, особенно открытые, остаются значительно ниже — не выше 65%. Более того, 48% их выводов содержат фактические или образовательные ошибки, проверенные экспертами. Анализ ошибок показал систематические слабые места в морфологии румынского языка и несоответствии последним нормам орфографии (DOOM3). Наши результаты подтверждают, что главные проблемы заключаются в недостаточной моделировании грамматических явлений и недостаточно надежной генерации языковых объяснений.
## Значимость
Результаты показывают, что GRILE может использоваться в различных областях: в образовательных технологиях для тестирования и развития грамматических навыков, в создании более надежных языковых моделей, и в проверке и исправлении языковых ресурсов. Этот бенчмарк мотивирует будущие исследования в области "надежного" обучения языкам, особенно для низкороутинных языков, и демонстрирует потенциал в развитии новых алгоритмов для генераци