Long document summarization using page specific target text alignment and distilling page importance
2509.16539v1
cs.IR, cs.CL
2025-09-24
Авторы:
Pushpa Devi, Ayush Agrawal, Ashutosh Dubey, C. Ravindranath Chowdary
Резюме на русском
#### Контекст
В условиях быстрого роста текстовых данных в областях новостей, законодательства, медицины и науки возникает вызов по эффективному доступу и пониманию больших объемов информации. Эта сложность затрудняет пользователям эффективно извлекать ключевую информацию. Таким образом, появляется необходимость в методах суммаризации. Для кратких документов существуют многочисленные решения, но для документов длинной области проблемы и ограничено литературы. Большинство работ посвящены абстрактивной суммаризации с использованием BART, но у этого подхода есть ограничение в окне контекста. Наша работа ставит цель создать модель, которая может эффективно работать с длинными документами, учитывая их структуру и информативность страниц.
#### Метод
Мы предлагаем два подхода к суммаризации длинных документов: **PTS (Page-specific Target-text alignment Summarization)** и **PTSPI (Page-specific Target-text alignment Summarization with Page Importance)**. Основная идея заключается в разделении исходного документа на отдельные страницы и создании абстрактивных частичных суммарий для каждой страницы. **PTS** расширяет стандартный подход seq-to-seq, анализируя каждую страницу и вырабатывая непосредственное соответствие с соответствующей частью целевого текста. **PTSPI** расширяет PTS, добавляя слой, который учитывает информативность каждой страницы. Этот слой применяет динамический вес каждой странице, обеспечивая более точный выбор информации. Модели развертываются с помощью последовательно-последовательного подхода, где каждая страница анализируется независимо, а результаты объединяются в конечный суммаризованный текст.
#### Результаты
Мы провели эксперименты с использованием б BENCHMARK-датасета. Для оценки результатов применены метрики ROUGE-1 и ROUGE-2. Модель PTSPI показала значительное превосходство перед состоянием технологии (SOTA), достигнув роста в 6.32% в ROUGE-1 и 8.08% в ROUGE-2. Эти результаты подтверждают эффективность нашего подхода в суммаризации длинных документов, учитывая их структуру и информативность. Мы также проверили устойчивость нашей модели к различным типам документов, в том числе новостного, юридического и медицинского характера.
#### Значимость
Наш подход имеет широкие возможности применения в сферах, где требуется эффективная обработка и суммаризация больших текстов, таких как юридические документы, медицинские отчеты, научные публикации и новости. Особый привлекательностью является возможность учитывать информативность каждой страницы. Это позволяет повысить качество выделения ключевых сведений и снизить вероятность упущений важных деталей
Abstract
The rapid growth of textual data across news, legal, medical, and scientific
domains is becoming a challenge for efficiently accessing and understanding
large volumes of content. It is increasingly complex for users to consume and
extract meaningful information efficiently. Thus, raising the need for
summarization. Unlike short document summarization, long document abstractive
summarization is resource-intensive, and very little literature is present in
this direction. BART is a widely used efficient sequence-to-sequence
(seq-to-seq) model. However, when it comes to summarizing long documents, the
length of the context window limits its capabilities. We proposed a model
called PTS (Page-specific Target-text alignment Summarization) that extends the
seq-to-seq method for abstractive summarization by dividing the source document
into several pages. PTS aligns each page with the relevant part of the target
summary for better supervision. Partial summaries are generated for each page
of the document. We proposed another model called PTSPI (Page-specific
Target-text alignment Summarization with Page Importance), an extension to PTS
where an additional layer is placed before merging the partial summaries into
the final summary. This layer provides dynamic page weightage and explicit
supervision to focus on the most informative pages. We performed experiments on
the benchmark dataset and found that PTSPI outperformed the SOTA by 6.32\% in
ROUGE-1 and 8.08\% in ROUGE-2 scores.
Ссылки и действия
Дополнительные ресурсы: