Exploring Selective Retrieval-Augmentation for Long-Tail Legal Text Classification

2508.19997v3 cs.CL, cs.IR 2025-09-01

Авторы:

Boheng Mao

Резюме на русском

## Контекст Legal text classification является важной задачей в области естественного языкового процессинга (NLP), так как существенно влияет на эффективность управления и анализа юридических документов. Однако бенчмарк датасеты в этой области часто имеют длинный хвост распределения меток (long-tail label distribution), где многие метки представлены очень редко. Это приводит к низкой точности моделей при классификации редких классов. Существующие подходы, такие как общее расширение выборки (general data augmentation), требуют добавления внешних данных или изменений в архитектуре модели, что может привести к ухудшению качества или возникновению нежелательных побочных эффектов. Поэтому проблема требует разработки специализированных подходов, которые бы способствовали повышению точности классификации редких классов без негативного воздействия на качество классификации частых классов. Это и является мотивацией для исследования стратегии Selective Retrieval-Augmentation (SRA). ## Метод Selective Retrieval-Augmentation (SRA) представляет собой стратегию, которая сосредоточена на том, чтобы расширить обучающую выборку специальным образом для тех классов, которые редко встречаются в данных. SRA работает только с тренировочными данными, чтобы избежать возможных утечек информации и отсечки внешних корпусов. В этой стратегии используется механизм рекомендательных систем для поиска похожих примеров в тренировочной выборке. Эти примеры добавляются в выборку для классов с небольшим количеством примеров. Однако не добавляются примеры для классов с большим количеством примеров, чтобы не вводить лишних шумов в обучение. Это решение требует только одноразового обучения модели и не вносит изменений в её архитектуру. SRA протестирована на двух датасетах с длинным хвостом распределения меток: LEDGAR (для классификации одной метки) и UNFAIR-ToS (для классификации многомерных меток). ## Результаты Использованы данные из двух датасетов, при этом были сравнены результаты SRA с основными бенчмарками в сфере юридической классификации. Результаты показали, что SRA существенно повышает метрики micro-F1 и macro-F1 по сравнению с текущими лучшими результатами. Это свидетельствует о том, что SRA может эффективно уменьшить неравенство в классификации редких классов, улучшить общую точность и иметь более стабильный эффект по сравнению с другими подходами. ## Значимость SRA может быть применено в различных сферах, где существуют длинные хвосты распределения меток, таких как юридическая отрасль, медицина, финансы и другие. Основные преимущества SRA заключаются в его простоте, эффективности и отсутствии необходимости в дополнительных данных или изменения

Abstract

Legal text classification is a fundamental NLP task in the legal domain. Benchmark datasets in this area often exhibit a long-tail label distribution, where many labels are underrepresented, leading to poor model performance on rare classes. This paper explores Selective Retrieval-Augmentation (SRA) as a proof-of-concept approach to this problem. SRA focuses on augmenting samples belonging to low-frequency labels in the training set, preventing the introduction of noise for well-represented classes, and requires no changes to the model architecture. Retrieval is performed only from the training data to ensure there is no potential information leakage, removing the need for external corpora simultaneously. SRA is tested on two legal text classification benchmark datasets with long-tail distributions: LEDGAR (single-label) and UNFAIR-ToS (multi-label). Results show that SRA achieves consistent gains in both micro-F1 and macro-F1 over LexGLUE baselines.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Exploring Selective Retrieval-Augmentation for Long-Tail Legal Text Classification

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

MMAG: Mixed Memory-Augmented Generation for Large Language Models Applications

AR-Med: Automated Relevance Enhancement in Medical Search via LLM-Driven Informa...

Mitigating the Threshold Priming Effect in Large Language Model-Based Relevance ...

MMAG: Mixed Memory-Augmented Generation for Large Language Models Applications

Towards Unification of Hallucination Detection and Fact Verification for Large L...

Навигация