Evaluating the Limits of Large Language Models in Multilingual Legal Reasoning
2509.22472v1
cs.CL, cs.AI, cs.LG
2025-09-30
Авторы:
Antreas Ioannou, Andreas Shiamishis, Nora Hollenstein, Nezihe Merve Gürel
Резюме на русском
## Контекст
В последние годы широко распространение получили бо Large Language Models (LLMs), которые используются в различных областях, включая правовое дело. Несмотря на высокую точность LLMs в задачах универсального текстового понимания, таких как XNLI, их качество в задачах специальной сферы, такой как правовой рассуждений (legal reasoning), остается неоднозначным. Это объясняется тем, что LLMs часто не подстраиваются под многоязычную среду, различные правовые системы и ситуации, где нужна индивидуальная оценка аргументов и доказательств. Это проблема особенно актуальна в случае адверсарских техник, где текст может быть взвешенно изменен для достижения ложного результата. Исследование этих ограничений важно для понимания потенциала и ограничений LLMs в критически важных областях, таких как право, где ценность точности и достоверности высока.
## Метод
Для исследования моделей LLaMA и Gemini использована модульная оценочная архитектура, позволяющая проводить эксперименты с различными сетями и данными. Основными техническими решениями были:
1. **LLM-as-a-Judge**: подход, в котором модель работает как судья, принимая решения, корректность которых оценивается человеком.
2. **Multilingual Benchmarking Pipeline**: система, позволяющая проводить задачи, включая классификацию, суммирование текстов, открытые вопросы и общий рассуждающий анализ.
3. **Adversarial Testing**: использование методов, таких как внесение характеристичных перестроек текста (character-level и word-level perturbations), для проверки устойчивости моделей к адверсарским методам.
Для экспериментов использовались две модели: LLaMA и Gemini. Данные включали как юридические, так и неюридические тексты, а данные для юридических задач были взяты из LEXam-benchmark.
## Результаты
Оценка LLaMA и Gemini показала, что точность LLMs в задачах юридического рассуждения значительно ниже, чем в общих текстовых задачах. Например, LLaMA показала точность 40-45% на LEXam, в то время как на XNLI точность была выше 70%. Gemini показала значительно более высокую точность, средний прирост составил около 24% в сравнении с LLaMA.
Проанализировав результаты, было выявлено, что локальные особенности языка, такие как синтаксическая схожесть с английским, влияют на качество моделей. Также была отмечена высокая сенситивность LLMs к предложенным запросам (prompt design), что может привести к нестабильным результатам. Была также установлена важность адверсарских методов, таких как замена символов и слов, которые могут привести к недооценке или переоценке результатов в задачах юридического рассуждения.
## Значимость
Полученные результаты показывают, что, несмотря на развитие LLMs, в обла
Abstract
In an era dominated by Large Language Models (LLMs), understanding their
capabilities and limitations, especially in high-stakes fields like law, is
crucial. While LLMs such as Meta's LLaMA, OpenAI's ChatGPT, Google's Gemini,
DeepSeek, and other emerging models are increasingly integrated into legal
workflows, their performance in multilingual, jurisdictionally diverse, and
adversarial contexts remains insufficiently explored. This work evaluates LLaMA
and Gemini on multilingual legal and non-legal benchmarks, and assesses their
adversarial robustness in legal tasks through character and word-level
perturbations. We use an LLM-as-a-Judge approach for human-aligned evaluation.
We moreover present an open-source, modular evaluation pipeline designed to
support multilingual, task-diverse benchmarking of any combination of LLMs and
datasets, with a particular focus on legal tasks, including classification,
summarization, open questions, and general reasoning. Our findings confirm that
legal tasks pose significant challenges for LLMs with accuracies often below
50% on legal reasoning benchmarks such as LEXam, compared to over 70% on
general-purpose tasks like XNLI. In addition, while English generally yields
more stable results, it does not always lead to higher accuracy. Prompt
sensitivity and adversarial vulnerability is also shown to persist across
languages. Finally, a correlation is found between the performance of a
language and its syntactic similarity to English. We also observe that LLaMA is
weaker than Gemini, with the latter showing an average advantage of about 24
percentage points across the same task. Despite improvements in newer LLMs,
challenges remain in deploying them reliably for critical, multilingual legal
applications.
Ссылки и действия
Дополнительные ресурсы: