All for law and law for all: Adaptive RAG Pipeline for Legal Research
2508.13107v1
cs.CL, cs.IR, F.2.2, H.3.3, I.2.7
2025-08-20
Авторы:
Figarri Keisha, Prince Singh, Pallavi, Dion Fernandes, Aravindh Manivannan, Ilham Wicaksono, Faisal Ahmad
Резюме на русском
----------------------------------------------------------------------------------------------------------------------------------
## Контекст
Правовые системы требуют точности и достоверности в интерпретации законодательных актов. Однако традиционные поисковые системы часто сталкиваются с проблемой халтуринга (hallucinations), когда выдаваемая информация не соответствует фактическим правовым источникам. Эта проблема становится критичной в юридической сфере, где точность и стабильность решений имеют решающее значение. Большинство существующих юридических систем не могут адаптироваться к конкретным потребностям пользователей, таких как специализированные запросы или различные уровни понимания закона. "All for law and law for all: Adaptive RAG Pipeline for Legal Research" предлагает решение, которое устраняет эти ограничения.
## Метод
Разработанная система основывается на технологии Retrieval-Augmented Generation (RAG), которая объединяет три ключевых улучшения. Первый — **контекстно-связанный перевод запросов**, который разделяет вопросы на части, относящиеся к документам и естественному языку, и меняет глубину верификации и стиль ответа в зависимости от потребностей пользователя. Второй — **открытые стратегии рекомендаций**, основанные на SBERT и GTE-технологиях, позволяющих повысить Recall@K на 30-95% и увеличить Precision@K в 2,5 раза при K>4. Третий — **развитый фреймворк оценки и генерации**, включающий такие метрики, как RAGAS, BERTScore-F1 и ROUGE-Recall.
## Результаты
Эксперименты показали, что открытые стратегии рекомендаций превосходят свои закрытые аналоги во включении верных соответствий, повышая Recall@K на 30-95%. Подбор и настройка открытых стратегий позволяет сохранить эффективность и снизить затраты. Настроенный на юридический контекст промпт показал себя эффективнее базовых вариантов, улучшив семантическую точность и контекстную адекватность ответов.
## Значимость
Предложенная платформа может быть использована в таких областях, как юридические исследования, адвокатская деятельность и управление активами. Ее преимущества заключаются в том, что она обеспечивает более точные и контекстуально адекватные ответы, а также снижает затраты на реализацию. Это может оказаться критично для юридических систем, где недопустима ошибка в интерпретации законодательных актов.
## Выводы
Результаты доказывают, что компонентно-уровневая адаптация может значительно повысить качество юридических систем RAG. Будущие исследования будут ориентированы на улучшение глубины адаптации и расширение функциональных возможностей для более широкого круга задач в юридической сфере.
Abstract
Retrieval-Augmented Generation (RAG) mitigates hallucinations by grounding
large language model outputs in cited sources, a capability that is especially
critical in the legal domain. We present an end-to-end RAG pipeline that
revisits and extends the LegalBenchRAG baseline with three targeted
enhancements: (i) a context-aware query translator that disentangles document
references from natural-language questions and adapts retrieval depth and
response style based on expertise and specificity, (ii) open-source retrieval
strategies using SBERT and GTE embeddings that achieve substantial performance
gains (improving Recall@K by 30-95\% and Precision@K by $\sim$2.5$\times$ for
$K>4$) while remaining cost-efficient, and (iii) a comprehensive evaluation and
generation framework that combines RAGAS, BERTScore-F1, and ROUGE-Recall to
assess semantic alignment and faithfulness across models and prompt designs.
Our results show that carefully designed open-source pipelines can rival or
outperform proprietary approaches in retrieval quality, while a custom
legal-grounded prompt consistently produces more faithful and contextually
relevant answers than baseline prompting. Taken together, these contributions
demonstrate the potential of task-aware, component-level tuning to deliver
legally grounded, reproducible, and cost-effective RAG systems for legal
research assistance.