Evaluating the Limits of Large Language Models in Multilingual Legal Reasoning

2509.22472v1 cs.CL, cs.AI, cs.LG 2025-09-30
Авторы:

Antreas Ioannou, Andreas Shiamishis, Nora Hollenstein, Nezihe Merve Gürel

Резюме на русском

## Контекст В последние годы широко распространение получили бо Large Language Models (LLMs), которые используются в различных областях, включая правовое дело. Несмотря на высокую точность LLMs в задачах универсального текстового понимания, таких как XNLI, их качество в задачах специальной сферы, такой как правовой рассуждений (legal reasoning), остается неоднозначным. Это объясняется тем, что LLMs часто не подстраиваются под многоязычную среду, различные правовые системы и ситуации, где нужна индивидуальная оценка аргументов и доказательств. Это проблема особенно актуальна в случае адверсарских техник, где текст может быть взвешенно изменен для достижения ложного результата. Исследование этих ограничений важно для понимания потенциала и ограничений LLMs в критически важных областях, таких как право, где ценность точности и достоверности высока. ## Метод Для исследования моделей LLaMA и Gemini использована модульная оценочная архитектура, позволяющая проводить эксперименты с различными сетями и данными. Основными техническими решениями были: 1. **LLM-as-a-Judge**: подход, в котором модель работает как судья, принимая решения, корректность которых оценивается человеком. 2. **Multilingual Benchmarking Pipeline**: система, позволяющая проводить задачи, включая классификацию, суммирование текстов, открытые вопросы и общий рассуждающий анализ. 3. **Adversarial Testing**: использование методов, таких как внесение характеристичных перестроек текста (character-level и word-level perturbations), для проверки устойчивости моделей к адверсарским методам. Для экспериментов использовались две модели: LLaMA и Gemini. Данные включали как юридические, так и неюридические тексты, а данные для юридических задач были взяты из LEXam-benchmark. ## Результаты Оценка LLaMA и Gemini показала, что точность LLMs в задачах юридического рассуждения значительно ниже, чем в общих текстовых задачах. Например, LLaMA показала точность 40-45% на LEXam, в то время как на XNLI точность была выше 70%. Gemini показала значительно более высокую точность, средний прирост составил около 24% в сравнении с LLaMA. Проанализировав результаты, было выявлено, что локальные особенности языка, такие как синтаксическая схожесть с английским, влияют на качество моделей. Также была отмечена высокая сенситивность LLMs к предложенным запросам (prompt design), что может привести к нестабильным результатам. Была также установлена важность адверсарских методов, таких как замена символов и слов, которые могут привести к недооценке или переоценке результатов в задачах юридического рассуждения. ## Значимость Полученные результаты показывают, что, несмотря на развитие LLMs, в обла

Abstract

In an era dominated by Large Language Models (LLMs), understanding their capabilities and limitations, especially in high-stakes fields like law, is crucial. While LLMs such as Meta's LLaMA, OpenAI's ChatGPT, Google's Gemini, DeepSeek, and other emerging models are increasingly integrated into legal workflows, their performance in multilingual, jurisdictionally diverse, and adversarial contexts remains insufficiently explored. This work evaluates LLaMA and Gemini on multilingual legal and non-legal benchmarks, and assesses their adversarial robustness in legal tasks through character and word-level perturbations. We use an LLM-as-a-Judge approach for human-aligned evaluation. We moreover present an open-source, modular evaluation pipeline designed to support multilingual, task-diverse benchmarking of any combination of LLMs and datasets, with a particular focus on legal tasks, including classification, summarization, open questions, and general reasoning. Our findings confirm that legal tasks pose significant challenges for LLMs with accuracies often below 50% on legal reasoning benchmarks such as LEXam, compared to over 70% on general-purpose tasks like XNLI. In addition, while English generally yields more stable results, it does not always lead to higher accuracy. Prompt sensitivity and adversarial vulnerability is also shown to persist across languages. Finally, a correlation is found between the performance of a language and its syntactic similarity to English. We also observe that LLaMA is weaker than Gemini, with the latter showing an average advantage of about 24 percentage points across the same task. Despite improvements in newer LLMs, challenges remain in deploying them reliably for critical, multilingual legal applications.

Ссылки и действия