Long document summarization using page specific target text alignment and distilling page importance

2509.16539v1 cs.IR, cs.CL 2025-09-24
Авторы:

Pushpa Devi, Ayush Agrawal, Ashutosh Dubey, C. Ravindranath Chowdary

Резюме на русском

#### Контекст В условиях быстрого роста текстовых данных в областях новостей, законодательства, медицины и науки возникает вызов по эффективному доступу и пониманию больших объемов информации. Эта сложность затрудняет пользователям эффективно извлекать ключевую информацию. Таким образом, появляется необходимость в методах суммаризации. Для кратких документов существуют многочисленные решения, но для документов длинной области проблемы и ограничено литературы. Большинство работ посвящены абстрактивной суммаризации с использованием BART, но у этого подхода есть ограничение в окне контекста. Наша работа ставит цель создать модель, которая может эффективно работать с длинными документами, учитывая их структуру и информативность страниц. #### Метод Мы предлагаем два подхода к суммаризации длинных документов: **PTS (Page-specific Target-text alignment Summarization)** и **PTSPI (Page-specific Target-text alignment Summarization with Page Importance)**. Основная идея заключается в разделении исходного документа на отдельные страницы и создании абстрактивных частичных суммарий для каждой страницы. **PTS** расширяет стандартный подход seq-to-seq, анализируя каждую страницу и вырабатывая непосредственное соответствие с соответствующей частью целевого текста. **PTSPI** расширяет PTS, добавляя слой, который учитывает информативность каждой страницы. Этот слой применяет динамический вес каждой странице, обеспечивая более точный выбор информации. Модели развертываются с помощью последовательно-последовательного подхода, где каждая страница анализируется независимо, а результаты объединяются в конечный суммаризованный текст. #### Результаты Мы провели эксперименты с использованием б BENCHMARK-датасета. Для оценки результатов применены метрики ROUGE-1 и ROUGE-2. Модель PTSPI показала значительное превосходство перед состоянием технологии (SOTA), достигнув роста в 6.32% в ROUGE-1 и 8.08% в ROUGE-2. Эти результаты подтверждают эффективность нашего подхода в суммаризации длинных документов, учитывая их структуру и информативность. Мы также проверили устойчивость нашей модели к различным типам документов, в том числе новостного, юридического и медицинского характера. #### Значимость Наш подход имеет широкие возможности применения в сферах, где требуется эффективная обработка и суммаризация больших текстов, таких как юридические документы, медицинские отчеты, научные публикации и новости. Особый привлекательностью является возможность учитывать информативность каждой страницы. Это позволяет повысить качество выделения ключевых сведений и снизить вероятность упущений важных деталей

Abstract

The rapid growth of textual data across news, legal, medical, and scientific domains is becoming a challenge for efficiently accessing and understanding large volumes of content. It is increasingly complex for users to consume and extract meaningful information efficiently. Thus, raising the need for summarization. Unlike short document summarization, long document abstractive summarization is resource-intensive, and very little literature is present in this direction. BART is a widely used efficient sequence-to-sequence (seq-to-seq) model. However, when it comes to summarizing long documents, the length of the context window limits its capabilities. We proposed a model called PTS (Page-specific Target-text alignment Summarization) that extends the seq-to-seq method for abstractive summarization by dividing the source document into several pages. PTS aligns each page with the relevant part of the target summary for better supervision. Partial summaries are generated for each page of the document. We proposed another model called PTSPI (Page-specific Target-text alignment Summarization with Page Importance), an extension to PTS where an additional layer is placed before merging the partial summaries into the final summary. This layer provides dynamic page weightage and explicit supervision to focus on the most informative pages. We performed experiments on the benchmark dataset and found that PTSPI outperformed the SOTA by 6.32\% in ROUGE-1 and 8.08\% in ROUGE-2 scores.

Ссылки и действия