MizanQA: Benchmarking Large Language Models on Moroccan Legal Question Answering
2508.16357v1
cs.CL, cs.AI, cs.IR
2025-08-26
Авторы:
Adil Bahaj, Mounir Ghogho
Резюме на русском
## Контекст
В последние годы рост и развитие крупных языковых моделей (LLM) оказывают значительное влияние на область естественного общения (NLP). Однако эти модели часто сталкиваются с ограничениями при работе в специализированных доменах, таких как юридический, особенно в низкоресурсных языковых контекстах, таких как арабский. Особенностью данной сферы является не только техническая сложность, но также богатость лексических и юридических норм, которые часто отличаются от основных логик развитых моделей. Это приводит к явному недостатку в качественных данных и вызовам при использовании LLM в таких областях.
В работе предлагается новый бенчмарк, **MizanQA**, который специально разработан для оценки LLM в области задач юридического вопроса и ответа (QA) на марокканском языке. Он получил название "Mizan" — значение этого слова в переводе с арабского — "весы", что символизирует честь и справедливость в судебных процессах. Бенчмарк учитывает богатый языковой и юридический контекст, включая традиционное марокканское право, а также влияние законодательства французского происхождения. Он состоит из более чем 1700 вопросов с несколькими вариантами ответов, что позволяет получать сложные решения в области юридического анализа. Этот бенчмарк представляет собой новый этап в развитии технологий NLP в целом и в юридической сфере в частности.
## Метод
**MizanQA** отличается своим разнообразным подходом к сбору данных и методологии. Для создания данных использовались специальные юридические документы, законы, судебные решения и традиционные марокканские тексты. Ответы на вопросы были подготовлены специалистами в области юриспруденции, чтобы гарантировать точность и корректность.
Методология основывается на создании многомерных задач, включающих не только сопоставление вопросов с ответами, но и выявление интерпретаций закона. Оценка была произведена с использованием нескольких моделей, включая многоязычные языковые модели и те, которые специально разработаны для арабского языка. Эти модели были проверены на возможности понимания специфических юридических терминов, контекстуальных смыслов и неоднозначных формулировок в законных текстах.
## Результаты
Эксперименты показали, что даже самые продвинутые языковые модели стругаются с задачами, требующими глубокого юридического понимания и умения работать с текстами, характерными для марокканского законодательства. Например, модели, которые показали высокую производительность на глобальных задачах, снижались в производительности в случае локальных задач, относящихся к Марокко
Abstract
The rapid advancement of large language models (LLMs) has significantly
propelled progress in natural language processing (NLP). However, their
effectiveness in specialized, low-resource domains-such as Arabic legal
contexts-remains limited. This paper introduces MizanQA (pronounced Mizan,
meaning "scale" in Arabic, a universal symbol of justice), a benchmark designed
to evaluate LLMs on Moroccan legal question answering (QA) tasks, characterised
by rich linguistic and legal complexity. The dataset draws on Modern Standard
Arabic, Islamic Maliki jurisprudence, Moroccan customary law, and French legal
influences. Comprising over 1,700 multiple-choice questions, including
multi-answer formats, MizanQA captures the nuances of authentic legal
reasoning. Benchmarking experiments with multilingual and Arabic-focused LLMs
reveal substantial performance gaps, highlighting the need for tailored
evaluation metrics and culturally grounded, domain-specific LLM development.
Ссылки и действия
Дополнительные ресурсы: