Selective Retrieval-Augmentation for Long-Tail Legal Text Classification

2508.19997v2 cs.CL, cs.IR 2025-08-29
Авторы:

Boheng Mao

Резюме на русском

## Контекст Legal text classification является основной задачей в области NLP, применяемой в юридической сфере. Однако многие бенчмарк-датасеты в этой области обладают длинной хвостовой статистикой распределения классов (long-tail distribution), что означает, что многие меток имеют недостаточно примеров для эффективного обучения моделей. Это приводит к снижению производительности моделей, особенно в отношении редких классов. Эта проблема требует разработки методов, которые могут оптимально справиться с неравномерным распределением данных. ## Метод Основой метода Selective Retrieval-Augmentation (SRA) лежит идея руководства модели тем объектами, которые недостаточно представлены в обучающих данных. SRA реализует автоматическую выборку и добавление очень редких классов в обучающий набор, минимизируя влияние на классы, уже достаточно представленные. Это достигается за счет грамотного ретриева данных из обучающего набора, которое исключает влияние внешних источников, таких как Wikipedia или гугл-корпус. Таким образом, SRA гарантирует, что обучение не будет загрязнено внешними источниками, не относящимися к задаче. ## Результаты Выполнялись эксперименты на двух датасетах с длинной хвостовой статистикой: LEDGAR (single-label) и UNFAIR-ToS (multi-label). Были сравнены результаты SRA с предыдущими моделями LexGLUE. Результаты показали, что SRA улучшает микро-F1 и макро-F1 скоры на 2-5%, что свидетельствует об удачном шаге в решении задачи неравномерного распределения меток в юридической NLP. Эти результаты подтверждают сильную модельную производительность на редких меток. ## Значимость Наложение SRA может быть применено в широком кругу задач NLP, особенно тех, где имеется неравномерное распределение данных. Оптимальное отношение к редким классам делает SRA эффективным в задачах, где очень редкие классы имеют высокую стоимость. Этот подход позволяет экономить ресурсы, не прибегая к дополнительным внешним источникам, и снижает вероятность загрязнения модели внешними элементами. ## Выводы Разработанный SRA позволяет эффективно решать проблему неравномерного распределения классов в задачах юридической классификации текстов. Будущие исследования могут быть направлены на расширение SRA на другие типы задач с неравномерным распределением в задачах NLP, а также исследование дополнительных методов для улучшения системы ретриева.

Abstract

Legal text classification is a fundamental NLP task in the legal domain. Benchmark datasets in this area often exhibit a long-tail label distribution, where many labels are underrepresented, leading to poor model performance on rare classes. This paper proposes Selective Retrieval-Augmentation (SRA) as a solution to this problem. SRA focuses on augmenting samples belonging to low-frequency labels in the training set, preventing the introduction of noise for well-represented classes, and requires no changes to the model architecture. Retrieval is performed only from the training data to ensure there is no potential information leakage, removing the need for external corpora simultaneously. The proposed SRA method is tested on two legal text classification benchmark datasets with long-tail distributions: LEDGAR (single-label) and UNFAIR-ToS (multi-label). The results indicate that SRA attains higher micro-F1 and macro-F1 scores compared to all current LexGLUE baselines across both datasets, illustrating consistent improvements in long-tail legal text classification.

Ссылки и действия