CITE: A Comprehensive Benchmark for Heterogeneous Text-Attributed Graphs on Catalytic Materials

2508.15392v1 cs.LG, cs.CL 2025-08-23
Авторы:

Chenghao Zhang, Qingqing Long, Ludi Wang, Wenjuan Cui, Jianjun Yu, Yi Du

Резюме на русском

## Контекст Текстовые атрибуты в графах (Text-Attributed Graphs, TAGs) широко распространены в реальных системах, где каждый узел сопровождается своими текстовыми признаками. Особенно важной является задача обработки текстовых атрибутов для сложных, нейтронного материала ограниченного размера, где узлы могут иметь различные типы, и связи между ними могут иметь значительную разновидность. Несмотря на их важность, существует недостаток больших бенчмарков для проверки методов обучения признаков на графах, в частности, для графов с текстовыми атрибутами. Это снижает возможности для сравнения и улучшения методов обработки таких данных. Мы предлагаем CITE, первый и крупнейший бенчмаркный датасет для сложных текстовых атрибутов графов в области катализаторов. CITE включает более 438K узлов и 1.2M связей, охватывающих четыре типа отношений. Наша мотивация заключается в поддержке развития методов обучения для таких сложных данных, стандартизации процессов оценки и поддержке инновационных исследований в этой области. ## Метод CITE — это граф, состоящий из четырех типов узлов (CITATIONS, PUBLICATIONS, AUTHORS и ENTITIES) и четырех типов связей (CITED_BY, WRITTEN_BY, MENTIONED_IN, IS_A). Узлы имеют текстовые признаки, в том числе тексты статей, авторов и элементов словаря. Мы использовали методы глубокого обучения для построения представлений для каждого типа узлов. Для оценки производительности методов мы определили стандартные процедуры, включающие многоклассовую классификацию узлов. Мы также провели подробные эксперименты, проверяя эффективность метода и его способность работать с текстовыми признаками. Методы, оцениваемые в рамках CITE, включают традиционные методы графа, графы с текстовыми атрибутами, модели на базе ИИ с текстовыми данными и модели, объединяющие графы и модели текстового генерации. Мы старались покрыть широкий спектр подходов для обеспечения комплексной оценки CITE. ## Результаты Мы провели расширенные эксперименты на CITE, оценивая удовлетворенность решений, достигаемую в задаче многоклассовой классификации узлов. Эксперименты показали, что модели, использующие текстовые атрибуты, превосходят традиционные методы в этой задаче. Мы также провели ряд аблационных экспериментов, которые подтвердили важность текстовых признаков и сложности задачи. Наши результаты показали, что модели, объединяющие графы и модели текстового генерации (LLM+Graph), демонстрируют самые высокие показатели. Это означает, что использование текстовых атрибутов в контексте графов может

Abstract

Text-attributed graphs(TAGs) are pervasive in real-world systems,where each node carries its own textual features. In many cases these graphs are inherently heterogeneous, containing multiple node types and diverse edge types. Despite the ubiquity of such heterogeneous TAGs, there remains a lack of large-scale benchmark datasets. This shortage has become a critical bottleneck, hindering the development and fair comparison of representation learning methods on heterogeneous text-attributed graphs. In this paper, we introduce CITE - Catalytic Information Textual Entities Graph, the first and largest heterogeneous text-attributed citation graph benchmark for catalytic materials. CITE comprises over 438K nodes and 1.2M edges, spanning four relation types. In addition, we establish standardized evaluation procedures and conduct extensive benchmarking on the node classification task, as well as ablation experiments on the heterogeneous and textual properties of CITE. We compare four classes of learning paradigms, including homogeneous graph models, heterogeneous graph models, LLM(Large Language Model)-centric models, and LLM+Graph models. In a nutshell, we provide (i) an overview of the CITE dataset, (ii) standardized evaluation protocols, and (iii) baseline and ablation experiments across diverse modeling paradigms.

Ссылки и действия