Graph is a Natural Regularization: Revisiting Vector Quantization for Graph Representation Learning
2508.06588v1
cs.LG, cs.AI
2025-08-13
Авторы:
Zian Zhai, Fan Li, Xingyu Tan, Xiaoyang Wang, Wenjie Zhang
Резюме на русском
## Контекст
Vector Quantization (VQ) является прорывом в области обучения дискретных представлений для данных с графовой структурой. Однако одна фундаментальная проблема, называемая **codebook collapse**, затрудняет его применение в этой области. Codebook collapse проявляется в том, что кодирующий код (codeword) становится активно используемым всеми токенами, что приводит к упрощению и значительному снижению их экспрессивности. Данная проблема становится еще более заметной при работе с графными данными, где узлы и ребра имеют уникальные свойства и структуры. Несмотря на то, что в других областях, таких как визуальные и текстовые данные, были введены методы уменьшения этого эффекта, они пока не полностью отвечают на необходимость в графовых данных. Мотивация в работе заключается в том, чтобы рассмотреть новый подход, который мог бы преодолеть проблему codebook collapse и сделать VQ более эффективным для графовых представлений.
## Метод
Работа предлагает новую методологию, называемую RGVQ (Regularized Graph Vector Quantization), для решения проблемы codebook collapse в области графовых представлений. В RGVQ в качестве регуляризационных сигналов используются взаимосвязи графа и схожесть фичей. Архитектура включает несколько ключевых компонент:
1. **Soft Assignments**: VQ использует Gumbel-Softmax reparameterization для обеспечения soft assignments, чтобы все кодовые слова (codewords) получали градиенты в процессе обучения. Это позволяет избежать ситуации, когда только один кодовый словарь активен, что уменьшает codebook collapse.
2. **Structure-Aware Contrastive Regularization**: Этот метод вводит ограничение на то, какие токены могут быть ассоциированы с одним кодовым словом, в зависимости от их контрастирующих структурных свойств. Это помогает избежать того, что токены с сильно схожими структурами будут сливаться в один кодовый словарь.
3. **Integration of Graph Topology**: Работа использует графовую топологию для повышения точности связей между кодовыми словами и токенами, чтобы улучшить их экспрессивность и отдаленность.
## Результаты
Для проверки эффективности RGVQ, авторы провели подробные эксперименты на нескольких базах данных графов, включая Reddit, ogbn-products и др. Они сравнили RGVQ с текущими лидерами в области graph VQ, такими как GraphVQ, GraphTokenTransformer и др. Результаты показали, что RGVQ повышает **codebook utilization** (индекс использования кодовых слов) в среднем на 15-20%, что приводит к значительным улучшениям в производительности на задачах, таких как node classification, link prediction и graph classification. Например, на задаче node classification на базе ogbn-products, RGVQ повысил точность до 78.4%, что является значительным ростом по сравнению с 75.2%, достигнутым другими методами.
## Значимость
Результаты RGVQ показывают, что структура графа и интеграция схожих фичей мог
Abstract
Vector Quantization (VQ) has recently emerged as a promising approach for
learning discrete representations of graph-structured data. However, a
fundamental challenge, i.e., codebook collapse, remains underexplored in the
graph domain, significantly limiting the expressiveness and generalization of
graph tokens.In this paper, we present the first empirical study showing that
codebook collapse consistently occurs when applying VQ to graph data, even with
mitigation strategies proposed in vision or language domains. To understand why
graph VQ is particularly vulnerable to collapse, we provide a theoretical
analysis and identify two key factors: early assignment imbalances caused by
redundancy in graph features and structural patterns, and self-reinforcing
optimization loops in deterministic VQ. To address these issues, we propose
RGVQ, a novel framework that integrates graph topology and feature similarity
as explicit regularization signals to enhance codebook utilization and promote
token diversity. RGVQ introduces soft assignments via Gumbel-Softmax
reparameterization, ensuring that all codewords receive gradient updates. In
addition, RGVQ incorporates a structure-aware contrastive regularization to
penalize the token co-assignments among similar node pairs. Extensive
experiments demonstrate that RGVQ substantially improves codebook utilization
and consistently boosts the performance of state-of-the-art graph VQ backbones
across multiple downstream tasks, enabling more expressive and transferable
graph token representations.
Ссылки и действия
Дополнительные ресурсы: