FLeW: Facet-Level and Adaptive Weighted Representation Learning of Scientific Documents

2509.07531v1 cs.IR, cs.AI 2025-09-11
Авторы:

Zheng Dou, Deqing Wang, Fuzhen Zhuang, Jian Ren, Yanlin Hu

Резюме на русском

## Контекст Улучшение методов представления текстов научных документов является ключевым заданием в области обработки научной информации. Такие представления используются для решения различных задач, включая классификацию документов, упрощение текстов, анализ цитирования и поиск связанных работ. Однако существующие методы сталкиваются с тремя основными проблемами. Во-первых, методы контрастного обучения, основанные на цитировании, неэффективно используют сигналы цитирования и продолжают генерировать отдельные векторы для документов. Во-вторых, методы, строящие тонкослойные представления на уровне слов, предложений или аспектов, требуют дорогостоящих операций интеграции и часто недостаточно универсальны. В-третьих, методы, адаптирующиеся к конкретным задачам, требуют дополнительного обучения для каждой конкретной задачи, что усложняет процесс. Данная работа адресует эти проблемы, предлагая новый подход для создания более точных и универсальных представлений научных документов. ## Метод Метод, предложенный в работе, состоит из нескольких ключевых компонентов. Во-первых, введена новая стратегия выбора тройных примеров, которая оптимизирует сигналы цитирования, используя их частоту и намерение (например, "бэкграунд", "метод", "результат"). Эта стратегия позволяет создавать тонкослойное представление документа на уровне границ семантических частей. Во-вторых, введен адаптивный метод интеграции этих трех уровней представления в единое документное представление без необходимости дополнительной оптимизации. Это достигается за счет простого поиска весов. Этот подход объединяет преимущества контрастного обучения, тонкослойных представлений и задач-специфического обучения, обеспечивая более универсальную и эффективную модель. ## Результаты Исследования проводились на различных научных задачах и наборах данных, включая классификацию документов, анализ цитирования и взаимосвязей документов. Модель FLeW показала высокую точность и устойчивость по сравнению с другими подходами. Она эффективно обрабатывала требования к тонкослойным представлениям на различных уровнях, а также использовала сигналы цитирования более эффективно. Эксперименты подтвердили, что FLeW выполняет лучше в отношении генерализуемости и эффективности в различных научных областях. ## Значимость Предлагаемый подход имеет широкие области применения, включая классификацию научных документов, анализ цитирования, поиск связанных работ и упрощение текстов. Он предоставляет более точные представления, которые могут

Abstract

Scientific document representation learning provides powerful embeddings for various tasks, while current methods face challenges across three approaches. 1) Contrastive training with citation-structural signals underutilizes citation information and still generates single-vector representations. 2) Fine-grained representation learning, which generates multiple vectors at the sentence or aspect level, requires costly integration and lacks domain generalization. 3) Task-aware learning depends on manually predefined task categorization, overlooking nuanced task distinctions and requiring extra training data for task-specific modules. To address these problems, we propose a new method that unifies the three approaches for better representations, namely FLeW. Specifically, we introduce a novel triplet sampling method that leverages citation intent and frequency to enhance citation-structural signals for training. Citation intents (background, method, result), aligned with the general structure of scientific writing, facilitate a domain-generalized facet partition for fine-grained representation learning. Then, we adopt a simple weight search to adaptively integrate three facet-level embeddings into a task-specific document embedding without task-aware fine-tuning. Experiments show the applicability and robustness of FLeW across multiple scientific tasks and fields, compared to prior models.

Ссылки и действия