Efficient Zero-Shot Long Document Classification by Reducing Context Through Sentence Ranking
2508.17490v1
cs.CL, cs.LG
2025-08-27
Авторы:
Prathamesh Kokate, Mitali Sarnaik, Manavi Khopade, Mukta Takalikar, Raviraj Joshi
Резюме на русском
#### Контекст
Классификация документов является важной задачей в области обработки естественного языка, которая находит применение в различных сферах, таких как моделирование общественного мнения, мониторинг новостей или анализ документов. Однако существуют реальные проблемы, связанные с классификацией документов продолжительностью более 512 токенов, которые являются ограничением большинства существующих моделей. Трансформер-базированные модели, такие как BERT, проявляют выдачу класса в отношении классических задач текстовой классификации. Однако при работе с документами продолжительностью более 512 токенов, они сталкиваются с ограничениями ввода, высокими вычислительными затратами и снижением точности. Это свидетельствует о необходимости развития методов, оптимизирующих вычислительные ресурсы и улучшающих производительность в соответствии с требованиями классификации документов продолжительностью более 512 токенов.
#### Метод
Мы предлагаем новую эффективную методологию для классификации документов продолжительностью более 512 токенов с использованием стратегии рейтинга предложений. Метод основывается на трансформер-базированных моделях, которые сначала выполняют рейтинг предложений в документе по их значимости, используя метод TF-IDF. Затем выбираются только наиболее важные предложения, чтобы сократить количество токенов для ввода в модель. Это позволяет сохранить важные части текста, не изменяя структуру модели. Эта методология может быть применена для адаптации моделей, ориентированных на классификацию коротких текстов, к классификации документов продолжительностью более 512 токенов.
#### Результаты
Результаты экспериментов проводились на датасете MahaNews, содержащем длинные маратские новостные статьи. Мы проверили три стратегии рейтинга предложений: верхние 50%, 75% и 100% предложений. Мы выяснили, что сокращение количества предложений до 50% сохраняет точность классификации на уровне полного документа, при этом снижая время выполнения модели на до 35%. Это показывает, что рейтинг предложений является эффективным методом для эффективного использования ресурсов в классификации документов продолжительностью более 512 токенов.
#### Значимость
Метод, описанный в нашей работе, имеет широкие применения в различных областях, таких как моделирование общественного мнения, мониторинг новостей и анализ документов. Он позволяет эффективно использовать модели трансформеров для классификации документов продолжительностью более 512 токенов, чтобы улучшить производительность и снизить вычислительные затраты. Этот подход
Abstract
Transformer-based models like BERT excel at short text classification but
struggle with long document classification (LDC) due to input length
limitations and computational inefficiencies. In this work, we propose an
efficient, zero-shot approach to LDC that leverages sentence ranking to reduce
input context without altering the model architecture. Our method enables the
adaptation of models trained on short texts, such as headlines, to long-form
documents by selecting the most informative sentences using a TF-IDF-based
ranking strategy. Using the MahaNews dataset of long Marathi news articles, we
evaluate three context reduction strategies that prioritize essential content
while preserving classification accuracy. Our results show that retaining only
the top 50\% ranked sentences maintains performance comparable to full-document
inference while reducing inference time by up to 35\%. This demonstrates that
sentence ranking is a simple yet effective technique for scalable and efficient
zero-shot LDC.
Ссылки и действия
Дополнительные ресурсы: