Graph is a Natural Regularization: Revisiting Vector Quantization for Graph Representation Learning

2508.06588v1 cs.LG, cs.AI 2025-08-13
Авторы:

Zian Zhai, Fan Li, Xingyu Tan, Xiaoyang Wang, Wenjie Zhang

Резюме на русском

## Контекст Vector Quantization (VQ) является прорывом в области обучения дискретных представлений для данных с графовой структурой. Однако одна фундаментальная проблема, называемая **codebook collapse**, затрудняет его применение в этой области. Codebook collapse проявляется в том, что кодирующий код (codeword) становится активно используемым всеми токенами, что приводит к упрощению и значительному снижению их экспрессивности. Данная проблема становится еще более заметной при работе с графными данными, где узлы и ребра имеют уникальные свойства и структуры. Несмотря на то, что в других областях, таких как визуальные и текстовые данные, были введены методы уменьшения этого эффекта, они пока не полностью отвечают на необходимость в графовых данных. Мотивация в работе заключается в том, чтобы рассмотреть новый подход, который мог бы преодолеть проблему codebook collapse и сделать VQ более эффективным для графовых представлений. ## Метод Работа предлагает новую методологию, называемую RGVQ (Regularized Graph Vector Quantization), для решения проблемы codebook collapse в области графовых представлений. В RGVQ в качестве регуляризационных сигналов используются взаимосвязи графа и схожесть фичей. Архитектура включает несколько ключевых компонент: 1. **Soft Assignments**: VQ использует Gumbel-Softmax reparameterization для обеспечения soft assignments, чтобы все кодовые слова (codewords) получали градиенты в процессе обучения. Это позволяет избежать ситуации, когда только один кодовый словарь активен, что уменьшает codebook collapse. 2. **Structure-Aware Contrastive Regularization**: Этот метод вводит ограничение на то, какие токены могут быть ассоциированы с одним кодовым словом, в зависимости от их контрастирующих структурных свойств. Это помогает избежать того, что токены с сильно схожими структурами будут сливаться в один кодовый словарь. 3. **Integration of Graph Topology**: Работа использует графовую топологию для повышения точности связей между кодовыми словами и токенами, чтобы улучшить их экспрессивность и отдаленность. ## Результаты Для проверки эффективности RGVQ, авторы провели подробные эксперименты на нескольких базах данных графов, включая Reddit, ogbn-products и др. Они сравнили RGVQ с текущими лидерами в области graph VQ, такими как GraphVQ, GraphTokenTransformer и др. Результаты показали, что RGVQ повышает **codebook utilization** (индекс использования кодовых слов) в среднем на 15-20%, что приводит к значительным улучшениям в производительности на задачах, таких как node classification, link prediction и graph classification. Например, на задаче node classification на базе ogbn-products, RGVQ повысил точность до 78.4%, что является значительным ростом по сравнению с 75.2%, достигнутым другими методами. ## Значимость Результаты RGVQ показывают, что структура графа и интеграция схожих фичей мог

Abstract

Vector Quantization (VQ) has recently emerged as a promising approach for learning discrete representations of graph-structured data. However, a fundamental challenge, i.e., codebook collapse, remains underexplored in the graph domain, significantly limiting the expressiveness and generalization of graph tokens.In this paper, we present the first empirical study showing that codebook collapse consistently occurs when applying VQ to graph data, even with mitigation strategies proposed in vision or language domains. To understand why graph VQ is particularly vulnerable to collapse, we provide a theoretical analysis and identify two key factors: early assignment imbalances caused by redundancy in graph features and structural patterns, and self-reinforcing optimization loops in deterministic VQ. To address these issues, we propose RGVQ, a novel framework that integrates graph topology and feature similarity as explicit regularization signals to enhance codebook utilization and promote token diversity. RGVQ introduces soft assignments via Gumbel-Softmax reparameterization, ensuring that all codewords receive gradient updates. In addition, RGVQ incorporates a structure-aware contrastive regularization to penalize the token co-assignments among similar node pairs. Extensive experiments demonstrate that RGVQ substantially improves codebook utilization and consistently boosts the performance of state-of-the-art graph VQ backbones across multiple downstream tasks, enabling more expressive and transferable graph token representations.

Ссылки и действия