ViG-LRGC: Vision Graph Neural Networks with Learnable Reparameterized Graph Construction
2509.18840v1
cs.CV, I.2.10
2025-09-25
Авторы:
Ismael Elsharkawi, Hossam Sharara, Ahmed Rafea
Резюме на русском
## Контекст
Изображение — один из основных объектов исследований в области компьютерного зрения. Обработка изображений традиционно производилась с использованием сверточных нейронных сетей (CNN), либо с помощью виджет-трансформеров (Vision Transformers), которые обрабатывают изображения как последовательность визуальных токенов. Новые подходы, такие как Vision Graph Neural Networks (ViG), предлагают новую точку зрения, рассматривая изображение как граф, где узлы представляют визуальные элементы, а ребра — их взаимосвязи. Это подходящая модель для задач, требующих интуитивного представления взаимосвязей. Однако существует проблема с выбором лучшей структуры графа: существующие методы требуют гиперпараметров или операций статистического выбора, которые могут привести к неэффективным или неоптимальным результатам.
## Метод
Для устранения этих проблем предлагается Learnable Reparameterized Graph Construction (LRGC). Метод основывается на ключ-запрос-аттенции (key-query attention) между узлами, что позволяет оценивать взаимосвязи в графе. Далее, используется метод мягкого порога (soft-threshold reparameterization) для выбора ребер, который позволяет применять дифференцируемую математическую модель для обучения. Этот подход удаляет необходимость в гиперпараметрах, так как пороговые значения либо оптимизируются в процессе обучения, либо устанавливаются в зависимости от данных. Таким образом, LRGC обеспечивает более точное и гибко настраиваемое представление графа, избавляя модель от зависимости от предварительно заданных гиперпараметров.
## Результаты
Для исследования Выделены эксперименты на ImageNet-1k — широко используемой базе данных для задач классификации изображений. Модель ViG-LRGC была сравнена с современными моделями виджет-графов. Она показала лучший результат, обеспечивая более точное представление изображений и превосходя существующие модели схожих размеров. Эта производительность указывает на эффективность предложенного метода в создании более точных и оптимальных графов для обработки изображений.
## Значимость
LRGC может быть применено в различных областях компьютерного зрения, включая классификацию изображений, обнаружение объектов и сегментацию. Его главные преимущества заключаются в удалении необходимости в гиперпараметрах, увеличение точности и устойчивости модели. Данный подход позволяет значительно улучшить результаты в задачах обработки изображений, при этом сохраняя модель простую в использовании и эффективную.
## Выводы
Результаты исследования показывают, что LRGC является эффективным методом для создания графов в моделях ViG. Он у
Abstract
Image Representation Learning is an important problem in Computer Vision.
Traditionally, images were processed as grids, using Convolutional Neural
Networks or as a sequence of visual tokens, using Vision Transformers.
Recently, Vision Graph Neural Networks (ViG) have proposed the treatment of
images as a graph of nodes; which provides a more intuitive image
representation. The challenge is to construct a graph of nodes in each layer
that best represents the relations between nodes and does not need a
hyper-parameter search. ViG models in the literature depend on
non-parameterized and non-learnable statistical methods that operate on the
latent features of nodes to create a graph. This might not select the best
neighborhood for each node. Starting from k-NN graph construction to HyperGraph
Construction and Similarity-Thresholded graph construction, these methods lack
the ability to provide a learnable hyper-parameter-free graph construction
method. To overcome those challenges, we present the Learnable Reparameterized
Graph Construction (LRGC) for Vision Graph Neural Networks. LRGC applies
key-query attention between every pair of nodes; then uses soft-threshold
reparameterization for edge selection, which allows the use of a differentiable
mathematical model for training. Using learnable parameters to select the
neighborhood removes the bias that is induced by any clustering or thresholding
methods previously introduced in the literature. In addition, LRGC allows
tuning the threshold in each layer to the training data since the thresholds
are learnable through training and are not provided as hyper-parameters to the
model. We demonstrate that the proposed ViG-LRGC approach outperforms
state-of-the-art ViG models of similar sizes on the ImageNet-1k benchmark
dataset.
Ссылки и действия
Дополнительные ресурсы: