MizanQA: Benchmarking Large Language Models on Moroccan Legal Question Answering

2508.16357v1 cs.CL, cs.AI, cs.IR 2025-08-26
Авторы:

Adil Bahaj, Mounir Ghogho

Резюме на русском

## Контекст В последние годы рост и развитие крупных языковых моделей (LLM) оказывают значительное влияние на область естественного общения (NLP). Однако эти модели часто сталкиваются с ограничениями при работе в специализированных доменах, таких как юридический, особенно в низкоресурсных языковых контекстах, таких как арабский. Особенностью данной сферы является не только техническая сложность, но также богатость лексических и юридических норм, которые часто отличаются от основных логик развитых моделей. Это приводит к явному недостатку в качественных данных и вызовам при использовании LLM в таких областях. В работе предлагается новый бенчмарк, **MizanQA**, который специально разработан для оценки LLM в области задач юридического вопроса и ответа (QA) на марокканском языке. Он получил название "Mizan" — значение этого слова в переводе с арабского — "весы", что символизирует честь и справедливость в судебных процессах. Бенчмарк учитывает богатый языковой и юридический контекст, включая традиционное марокканское право, а также влияние законодательства французского происхождения. Он состоит из более чем 1700 вопросов с несколькими вариантами ответов, что позволяет получать сложные решения в области юридического анализа. Этот бенчмарк представляет собой новый этап в развитии технологий NLP в целом и в юридической сфере в частности. ## Метод **MizanQA** отличается своим разнообразным подходом к сбору данных и методологии. Для создания данных использовались специальные юридические документы, законы, судебные решения и традиционные марокканские тексты. Ответы на вопросы были подготовлены специалистами в области юриспруденции, чтобы гарантировать точность и корректность. Методология основывается на создании многомерных задач, включающих не только сопоставление вопросов с ответами, но и выявление интерпретаций закона. Оценка была произведена с использованием нескольких моделей, включая многоязычные языковые модели и те, которые специально разработаны для арабского языка. Эти модели были проверены на возможности понимания специфических юридических терминов, контекстуальных смыслов и неоднозначных формулировок в законных текстах. ## Результаты Эксперименты показали, что даже самые продвинутые языковые модели стругаются с задачами, требующими глубокого юридического понимания и умения работать с текстами, характерными для марокканского законодательства. Например, модели, которые показали высокую производительность на глобальных задачах, снижались в производительности в случае локальных задач, относящихся к Марокко

Abstract

The rapid advancement of large language models (LLMs) has significantly propelled progress in natural language processing (NLP). However, their effectiveness in specialized, low-resource domains-such as Arabic legal contexts-remains limited. This paper introduces MizanQA (pronounced Mizan, meaning "scale" in Arabic, a universal symbol of justice), a benchmark designed to evaluate LLMs on Moroccan legal question answering (QA) tasks, characterised by rich linguistic and legal complexity. The dataset draws on Modern Standard Arabic, Islamic Maliki jurisprudence, Moroccan customary law, and French legal influences. Comprising over 1,700 multiple-choice questions, including multi-answer formats, MizanQA captures the nuances of authentic legal reasoning. Benchmarking experiments with multilingual and Arabic-focused LLMs reveal substantial performance gaps, highlighting the need for tailored evaluation metrics and culturally grounded, domain-specific LLM development.

Ссылки и действия