Selective Retrieval-Augmentation for Long-Tail Legal Text Classification
2508.19997v2
cs.CL, cs.IR
2025-08-29
Авторы:
Boheng Mao
Резюме на русском
## Контекст
Legal text classification является основной задачей в области NLP, применяемой в юридической сфере. Однако многие бенчмарк-датасеты в этой области обладают длинной хвостовой статистикой распределения классов (long-tail distribution), что означает, что многие меток имеют недостаточно примеров для эффективного обучения моделей. Это приводит к снижению производительности моделей, особенно в отношении редких классов. Эта проблема требует разработки методов, которые могут оптимально справиться с неравномерным распределением данных.
## Метод
Основой метода Selective Retrieval-Augmentation (SRA) лежит идея руководства модели тем объектами, которые недостаточно представлены в обучающих данных. SRA реализует автоматическую выборку и добавление очень редких классов в обучающий набор, минимизируя влияние на классы, уже достаточно представленные. Это достигается за счет грамотного ретриева данных из обучающего набора, которое исключает влияние внешних источников, таких как Wikipedia или гугл-корпус. Таким образом, SRA гарантирует, что обучение не будет загрязнено внешними источниками, не относящимися к задаче.
## Результаты
Выполнялись эксперименты на двух датасетах с длинной хвостовой статистикой: LEDGAR (single-label) и UNFAIR-ToS (multi-label). Были сравнены результаты SRA с предыдущими моделями LexGLUE. Результаты показали, что SRA улучшает микро-F1 и макро-F1 скоры на 2-5%, что свидетельствует об удачном шаге в решении задачи неравномерного распределения меток в юридической NLP. Эти результаты подтверждают сильную модельную производительность на редких меток.
## Значимость
Наложение SRA может быть применено в широком кругу задач NLP, особенно тех, где имеется неравномерное распределение данных. Оптимальное отношение к редким классам делает SRA эффективным в задачах, где очень редкие классы имеют высокую стоимость. Этот подход позволяет экономить ресурсы, не прибегая к дополнительным внешним источникам, и снижает вероятность загрязнения модели внешними элементами.
## Выводы
Разработанный SRA позволяет эффективно решать проблему неравномерного распределения классов в задачах юридической классификации текстов. Будущие исследования могут быть направлены на расширение SRA на другие типы задач с неравномерным распределением в задачах NLP, а также исследование дополнительных методов для улучшения системы ретриева.
Abstract
Legal text classification is a fundamental NLP task in the legal domain.
Benchmark datasets in this area often exhibit a long-tail label distribution,
where many labels are underrepresented, leading to poor model performance on
rare classes. This paper proposes Selective Retrieval-Augmentation (SRA) as a
solution to this problem. SRA focuses on augmenting samples belonging to
low-frequency labels in the training set, preventing the introduction of noise
for well-represented classes, and requires no changes to the model
architecture. Retrieval is performed only from the training data to ensure
there is no potential information leakage, removing the need for external
corpora simultaneously. The proposed SRA method is tested on two legal text
classification benchmark datasets with long-tail distributions: LEDGAR
(single-label) and UNFAIR-ToS (multi-label). The results indicate that SRA
attains higher micro-F1 and macro-F1 scores compared to all current LexGLUE
baselines across both datasets, illustrating consistent improvements in
long-tail legal text classification.
Ссылки и действия
Дополнительные ресурсы: