Exploring Selective Retrieval-Augmentation for Long-Tail Legal Text Classification
2508.19997v3
cs.CL, cs.IR
2025-09-01
Авторы:
Boheng Mao
Резюме на русском
## Контекст
Legal text classification является важной задачей в области естественного языкового процессинга (NLP), так как существенно влияет на эффективность управления и анализа юридических документов. Однако бенчмарк датасеты в этой области часто имеют длинный хвост распределения меток (long-tail label distribution), где многие метки представлены очень редко. Это приводит к низкой точности моделей при классификации редких классов. Существующие подходы, такие как общее расширение выборки (general data augmentation), требуют добавления внешних данных или изменений в архитектуре модели, что может привести к ухудшению качества или возникновению нежелательных побочных эффектов.
Поэтому проблема требует разработки специализированных подходов, которые бы способствовали повышению точности классификации редких классов без негативного воздействия на качество классификации частых классов. Это и является мотивацией для исследования стратегии Selective Retrieval-Augmentation (SRA).
## Метод
Selective Retrieval-Augmentation (SRA) представляет собой стратегию, которая сосредоточена на том, чтобы расширить обучающую выборку специальным образом для тех классов, которые редко встречаются в данных. SRA работает только с тренировочными данными, чтобы избежать возможных утечек информации и отсечки внешних корпусов.
В этой стратегии используется механизм рекомендательных систем для поиска похожих примеров в тренировочной выборке. Эти примеры добавляются в выборку для классов с небольшим количеством примеров. Однако не добавляются примеры для классов с большим количеством примеров, чтобы не вводить лишних шумов в обучение. Это решение требует только одноразового обучения модели и не вносит изменений в её архитектуру.
SRA протестирована на двух датасетах с длинным хвостом распределения меток: LEDGAR (для классификации одной метки) и UNFAIR-ToS (для классификации многомерных меток).
## Результаты
Использованы данные из двух датасетов, при этом были сравнены результаты SRA с основными бенчмарками в сфере юридической классификации. Результаты показали, что SRA существенно повышает метрики micro-F1 и macro-F1 по сравнению с текущими лучшими результатами. Это свидетельствует о том, что SRA может эффективно уменьшить неравенство в классификации редких классов, улучшить общую точность и иметь более стабильный эффект по сравнению с другими подходами.
## Значимость
SRA может быть применено в различных сферах, где существуют длинные хвосты распределения меток, таких как юридическая отрасль, медицина, финансы и другие. Основные преимущества SRA заключаются в его простоте, эффективности и отсутствии необходимости в дополнительных данных или изменения
Abstract
Legal text classification is a fundamental NLP task in the legal domain.
Benchmark datasets in this area often exhibit a long-tail label distribution,
where many labels are underrepresented, leading to poor model performance on
rare classes. This paper explores Selective Retrieval-Augmentation (SRA) as a
proof-of-concept approach to this problem. SRA focuses on augmenting samples
belonging to low-frequency labels in the training set, preventing the
introduction of noise for well-represented classes, and requires no changes to
the model architecture. Retrieval is performed only from the training data to
ensure there is no potential information leakage, removing the need for
external corpora simultaneously. SRA is tested on two legal text classification
benchmark datasets with long-tail distributions: LEDGAR (single-label) and
UNFAIR-ToS (multi-label). Results show that SRA achieves consistent gains in
both micro-F1 and macro-F1 over LexGLUE baselines.
Ссылки и действия
Дополнительные ресурсы: