CITE: A Comprehensive Benchmark for Heterogeneous Text-Attributed Graphs on Catalytic Materials
2508.15392v1
cs.LG, cs.CL
2025-08-23
Авторы:
Chenghao Zhang, Qingqing Long, Ludi Wang, Wenjuan Cui, Jianjun Yu, Yi Du
Резюме на русском
## Контекст
Текстовые атрибуты в графах (Text-Attributed Graphs, TAGs) широко распространены в реальных системах, где каждый узел сопровождается своими текстовыми признаками. Особенно важной является задача обработки текстовых атрибутов для сложных, нейтронного материала ограниченного размера, где узлы могут иметь различные типы, и связи между ними могут иметь значительную разновидность. Несмотря на их важность, существует недостаток больших бенчмарков для проверки методов обучения признаков на графах, в частности, для графов с текстовыми атрибутами. Это снижает возможности для сравнения и улучшения методов обработки таких данных. Мы предлагаем CITE, первый и крупнейший бенчмаркный датасет для сложных текстовых атрибутов графов в области катализаторов. CITE включает более 438K узлов и 1.2M связей, охватывающих четыре типа отношений. Наша мотивация заключается в поддержке развития методов обучения для таких сложных данных, стандартизации процессов оценки и поддержке инновационных исследований в этой области.
## Метод
CITE — это граф, состоящий из четырех типов узлов (CITATIONS, PUBLICATIONS, AUTHORS и ENTITIES) и четырех типов связей (CITED_BY, WRITTEN_BY, MENTIONED_IN, IS_A). Узлы имеют текстовые признаки, в том числе тексты статей, авторов и элементов словаря. Мы использовали методы глубокого обучения для построения представлений для каждого типа узлов. Для оценки производительности методов мы определили стандартные процедуры, включающие многоклассовую классификацию узлов. Мы также провели подробные эксперименты, проверяя эффективность метода и его способность работать с текстовыми признаками. Методы, оцениваемые в рамках CITE, включают традиционные методы графа, графы с текстовыми атрибутами, модели на базе ИИ с текстовыми данными и модели, объединяющие графы и модели текстового генерации. Мы старались покрыть широкий спектр подходов для обеспечения комплексной оценки CITE.
## Результаты
Мы провели расширенные эксперименты на CITE, оценивая удовлетворенность решений, достигаемую в задаче многоклассовой классификации узлов. Эксперименты показали, что модели, использующие текстовые атрибуты, превосходят традиционные методы в этой задаче. Мы также провели ряд аблационных экспериментов, которые подтвердили важность текстовых признаков и сложности задачи. Наши результаты показали, что модели, объединяющие графы и модели текстового генерации (LLM+Graph), демонстрируют самые высокие показатели. Это означает, что использование текстовых атрибутов в контексте графов может
Abstract
Text-attributed graphs(TAGs) are pervasive in real-world systems,where each
node carries its own textual features. In many cases these graphs are
inherently heterogeneous, containing multiple node types and diverse edge
types. Despite the ubiquity of such heterogeneous TAGs, there remains a lack of
large-scale benchmark datasets. This shortage has become a critical bottleneck,
hindering the development and fair comparison of representation learning
methods on heterogeneous text-attributed graphs. In this paper, we introduce
CITE - Catalytic Information Textual Entities Graph, the first and largest
heterogeneous text-attributed citation graph benchmark for catalytic materials.
CITE comprises over 438K nodes and 1.2M edges, spanning four relation types. In
addition, we establish standardized evaluation procedures and conduct extensive
benchmarking on the node classification task, as well as ablation experiments
on the heterogeneous and textual properties of CITE. We compare four classes of
learning paradigms, including homogeneous graph models, heterogeneous graph
models, LLM(Large Language Model)-centric models, and LLM+Graph models. In a
nutshell, we provide (i) an overview of the CITE dataset, (ii) standardized
evaluation protocols, and (iii) baseline and ablation experiments across
diverse modeling paradigms.
Ссылки и действия
Дополнительные ресурсы: