## Контекст
В последние годы широко распространение получили бо Large Language Models (LLMs), которые используются в различных областях, включая правовое дело. Несмотря на высокую точность LLMs в задачах универсального текстового понимания, таких как XNLI, их качество в задачах специальной сферы, такой как правовой рассуждений (legal reasoning), остается неоднозначным. Это объясняется тем, что LLMs часто не подстраиваются под многоязычную среду, различные правовые системы и ситуации, где нужна индивидуальная оценка аргументов и доказательств. Это проблема особенно актуальна в случае адверсарских техник, где текст может быть взвешенно изменен для достижения ложного результата. Исследование этих ограничений важно для понимания потенциала и ограничений LLMs в критически важных областях, таких как право, где ценность точности и достоверности высока.
## Метод
Для исследования моделей LLaMA и Gemini использована модульная оценочная архитектура, позволяющая проводить эксперименты с различными сетями и данными. Основными техническими решениями были:
1. **LLM-as-a-Judge**: подход, в котором модель работает как судья, принимая решения, корректность которых оценивается человеком.
2. **Multilingual Benchmarking Pipeline**: система, позволяющая проводить задачи, включая классификацию, суммирование текстов, открытые вопросы и общий рассуждающий анализ.
3. **Adversarial Testing**: использование методов, таких как внесение характеристичных перестроек текста (character-level и word-level perturbations), для проверки устойчивости моделей к адверсарским методам.
Для экспериментов использовались две модели: LLaMA и Gemini. Данные включали как юридические, так и неюридические тексты, а данные для юридических задач были взяты из LEXam-benchmark.
## Результаты
Оценка LLaMA и Gemini показала, что точность LLMs в задачах юридического рассуждения значительно ниже, чем в общих текстовых задачах. Например, LLaMA показала точность 40-45% на LEXam, в то время как на XNLI точность была выше 70%. Gemini показала значительно более высокую точность, средний прирост составил около 24% в сравнении с LLaMA.
Проанализировав результаты, было выявлено, что локальные особенности языка, такие как синтаксическая схожесть с английским, влияют на качество моделей. Также была отмечена высокая сенситивность LLMs к предложенным запросам (prompt design), что может привести к нестабильным результатам. Была также установлена важность адверсарских методов, таких как замена символов и слов, которые могут привести к недооценке или переоценке результатов в задачах юридического рассуждения.
## Значимость
Полученные результаты показывают, что, несмотря на развитие LLMs, в обла