Efficient Zero-Shot Long Document Classification by Reducing Context Through Sentence Ranking

2508.17490v1 cs.CL, cs.LG 2025-08-27
Авторы:

Prathamesh Kokate, Mitali Sarnaik, Manavi Khopade, Mukta Takalikar, Raviraj Joshi

Резюме на русском

#### Контекст Классификация документов является важной задачей в области обработки естественного языка, которая находит применение в различных сферах, таких как моделирование общественного мнения, мониторинг новостей или анализ документов. Однако существуют реальные проблемы, связанные с классификацией документов продолжительностью более 512 токенов, которые являются ограничением большинства существующих моделей. Трансформер-базированные модели, такие как BERT, проявляют выдачу класса в отношении классических задач текстовой классификации. Однако при работе с документами продолжительностью более 512 токенов, они сталкиваются с ограничениями ввода, высокими вычислительными затратами и снижением точности. Это свидетельствует о необходимости развития методов, оптимизирующих вычислительные ресурсы и улучшающих производительность в соответствии с требованиями классификации документов продолжительностью более 512 токенов. #### Метод Мы предлагаем новую эффективную методологию для классификации документов продолжительностью более 512 токенов с использованием стратегии рейтинга предложений. Метод основывается на трансформер-базированных моделях, которые сначала выполняют рейтинг предложений в документе по их значимости, используя метод TF-IDF. Затем выбираются только наиболее важные предложения, чтобы сократить количество токенов для ввода в модель. Это позволяет сохранить важные части текста, не изменяя структуру модели. Эта методология может быть применена для адаптации моделей, ориентированных на классификацию коротких текстов, к классификации документов продолжительностью более 512 токенов. #### Результаты Результаты экспериментов проводились на датасете MahaNews, содержащем длинные маратские новостные статьи. Мы проверили три стратегии рейтинга предложений: верхние 50%, 75% и 100% предложений. Мы выяснили, что сокращение количества предложений до 50% сохраняет точность классификации на уровне полного документа, при этом снижая время выполнения модели на до 35%. Это показывает, что рейтинг предложений является эффективным методом для эффективного использования ресурсов в классификации документов продолжительностью более 512 токенов. #### Значимость Метод, описанный в нашей работе, имеет широкие применения в различных областях, таких как моделирование общественного мнения, мониторинг новостей и анализ документов. Он позволяет эффективно использовать модели трансформеров для классификации документов продолжительностью более 512 токенов, чтобы улучшить производительность и снизить вычислительные затраты. Этот подход

Abstract

Transformer-based models like BERT excel at short text classification but struggle with long document classification (LDC) due to input length limitations and computational inefficiencies. In this work, we propose an efficient, zero-shot approach to LDC that leverages sentence ranking to reduce input context without altering the model architecture. Our method enables the adaptation of models trained on short texts, such as headlines, to long-form documents by selecting the most informative sentences using a TF-IDF-based ranking strategy. Using the MahaNews dataset of long Marathi news articles, we evaluate three context reduction strategies that prioritize essential content while preserving classification accuracy. Our results show that retaining only the top 50\% ranked sentences maintains performance comparable to full-document inference while reducing inference time by up to 35\%. This demonstrates that sentence ranking is a simple yet effective technique for scalable and efficient zero-shot LDC.

Ссылки и действия