All for law and law for all: Adaptive RAG Pipeline for Legal Research

2508.13107v1 cs.CL, cs.IR, F.2.2, H.3.3, I.2.7 2025-08-20

Авторы:

Figarri Keisha, Prince Singh, Pallavi, Dion Fernandes, Aravindh Manivannan, Ilham Wicaksono, Faisal Ahmad

Резюме на русском

---------------------------------------------------------------------------------------------------------------------------------- ## Контекст Правовые системы требуют точности и достоверности в интерпретации законодательных актов. Однако традиционные поисковые системы часто сталкиваются с проблемой халтуринга (hallucinations), когда выдаваемая информация не соответствует фактическим правовым источникам. Эта проблема становится критичной в юридической сфере, где точность и стабильность решений имеют решающее значение. Большинство существующих юридических систем не могут адаптироваться к конкретным потребностям пользователей, таких как специализированные запросы или различные уровни понимания закона. "All for law and law for all: Adaptive RAG Pipeline for Legal Research" предлагает решение, которое устраняет эти ограничения. ## Метод Разработанная система основывается на технологии Retrieval-Augmented Generation (RAG), которая объединяет три ключевых улучшения. Первый — **контекстно-связанный перевод запросов**, который разделяет вопросы на части, относящиеся к документам и естественному языку, и меняет глубину верификации и стиль ответа в зависимости от потребностей пользователя. Второй — **открытые стратегии рекомендаций**, основанные на SBERT и GTE-технологиях, позволяющих повысить Recall@K на 30-95% и увеличить Precision@K в 2,5 раза при K>4. Третий — **развитый фреймворк оценки и генерации**, включающий такие метрики, как RAGAS, BERTScore-F1 и ROUGE-Recall. ## Результаты Эксперименты показали, что открытые стратегии рекомендаций превосходят свои закрытые аналоги во включении верных соответствий, повышая Recall@K на 30-95%. Подбор и настройка открытых стратегий позволяет сохранить эффективность и снизить затраты. Настроенный на юридический контекст промпт показал себя эффективнее базовых вариантов, улучшив семантическую точность и контекстную адекватность ответов. ## Значимость Предложенная платформа может быть использована в таких областях, как юридические исследования, адвокатская деятельность и управление активами. Ее преимущества заключаются в том, что она обеспечивает более точные и контекстуально адекватные ответы, а также снижает затраты на реализацию. Это может оказаться критично для юридических систем, где недопустима ошибка в интерпретации законодательных актов. ## Выводы Результаты доказывают, что компонентно-уровневая адаптация может значительно повысить качество юридических систем RAG. Будущие исследования будут ориентированы на улучшение глубины адаптации и расширение функциональных возможностей для более широкого круга задач в юридической сфере.

Abstract

Retrieval-Augmented Generation (RAG) mitigates hallucinations by grounding large language model outputs in cited sources, a capability that is especially critical in the legal domain. We present an end-to-end RAG pipeline that revisits and extends the LegalBenchRAG baseline with three targeted enhancements: (i) a context-aware query translator that disentangles document references from natural-language questions and adapts retrieval depth and response style based on expertise and specificity, (ii) open-source retrieval strategies using SBERT and GTE embeddings that achieve substantial performance gains (improving Recall@K by 30-95\% and Precision@K by $\sim$2.5$\times$ for $K>4$) while remaining cost-efficient, and (iii) a comprehensive evaluation and generation framework that combines RAGAS, BERTScore-F1, and ROUGE-Recall to assess semantic alignment and faithfulness across models and prompt designs. Our results show that carefully designed open-source pipelines can rival or outperform proprietary approaches in retrieval quality, while a custom legal-grounded prompt consistently produces more faithful and contextually relevant answers than baseline prompting. Taken together, these contributions demonstrate the potential of task-aware, component-level tuning to deliver legally grounded, reproducible, and cost-effective RAG systems for legal research assistance.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Резюме на русском

Abstract

Ссылки и действия

Навигация