Evaluating the Role of Large Language Models in Legal Practice in India

2508.09713v1 cs.CL, cs.AI 2025-08-15
Авторы:

Rahul Hemrajani

Резюме на русском

## Контекст В последние годы искусственный интеллект (AI) начал становиться важной частью различных профессиональных сфер, включая правосудие. В Индии, где система правового обслуживания сталкивается с проблемами справедливости и эффективности, AI может сыграть ключевую роль в улучшении доступа к правосудию и упрощении процедур. Одним из наиболее обещающих видов AI для этого направления являются Большие Лингвистические Модели (LLM), такие как GPT, Claude и Llama. Однако, несмотря на их быстрое развитие, эти модели сталкиваются с ограничениями, особенно в сфере законодательства, где точность, контекстуальность и юридическая научность являются ключевыми. ## Метод Для оценки вклада LLM в юридическую практику в Индии была проведена исследовательская экспериментальная работа. Модели LLM (GPT, Claude, Llama) были задействованы для выполнения пяти типичных юридических задач: 1. **Становление проблем (issue spotting)** – выявление правовых вопросов в текстах. 2. **Редактирование документов (legal drafting)** – составление и редактирование юридических документов. 3. **Подсказки и советы (advice and guidance)** – предоставление советов по юридическим вопросам. 4. **Исследование законодательства (legal research)** – поиск и анализ законов и решений суда. 5. **Рациональное мышление (reasoning)** – применение юридического рассудка для решения конкретных ситуаций. Результаты этих задач были сравнивались со стандартными результатами, полученными от практикующих юристов и заключительного курса юридического университета. Оценка выполненных задач производилась по трем критериям: - **Полезность (helpfulness)** – насколько результаты полезны для решения конкретных задач. - **Точность (accuracy)** – насколько результаты верны и соответствуют закону. - **Полноту (comprehensiveness)** – насколько результаты полны и подробны. ## Результаты Результаты экспериментов показали, что LLM оказались очень эффективны в задачах, которые требуют систематической или процессорной работы, таких как **становление проблем (issue spotting)** и **редактирование документов (legal drafting)**. Особенно GPT демонстрировал высокую точность и полноту в этих областях, часто превосходил работу студентов и даже каких-то юридических профессионалов. Однако, в области **исследования законодательства (legal research)**, модели LLM сталкивались с значительными ограничениями. Они часто генерировали **фальшивые выводы (hallucinations)** – создавали фактически неверные или неуместные ответы, которые могут быть опасными в реальной практике. Это отражает ограничения LLM в обработке специфических правовых контекстов и отсутствии достоверных источников. ## Значимость Основные выводы работы у

Abstract

The integration of Artificial Intelligence(AI) into the legal profession raises significant questions about the capacity of Large Language Models(LLM) to perform key legal tasks. In this paper, I empirically evaluate how well LLMs, such as GPT, Claude, and Llama, perform key legal tasks in the Indian context, including issue spotting, legal drafting, advice, research, and reasoning. Through a survey experiment, I compare outputs from LLMs with those of a junior lawyer, with advanced law students rating the work on helpfulness, accuracy, and comprehensiveness. LLMs excel in drafting and issue spotting, often matching or surpassing human work. However, they struggle with specialised legal research, frequently generating hallucinations, factually incorrect or fabricated outputs. I conclude that while LLMs can augment certain legal tasks, human expertise remains essential for nuanced reasoning and the precise application of law.

Ссылки и действия