ViG-LRGC: Vision Graph Neural Networks with Learnable Reparameterized Graph Construction

2509.18840v1 cs.CV, I.2.10 2025-09-25
Авторы:

Ismael Elsharkawi, Hossam Sharara, Ahmed Rafea

Резюме на русском

## Контекст Изображение — один из основных объектов исследований в области компьютерного зрения. Обработка изображений традиционно производилась с использованием сверточных нейронных сетей (CNN), либо с помощью виджет-трансформеров (Vision Transformers), которые обрабатывают изображения как последовательность визуальных токенов. Новые подходы, такие как Vision Graph Neural Networks (ViG), предлагают новую точку зрения, рассматривая изображение как граф, где узлы представляют визуальные элементы, а ребра — их взаимосвязи. Это подходящая модель для задач, требующих интуитивного представления взаимосвязей. Однако существует проблема с выбором лучшей структуры графа: существующие методы требуют гиперпараметров или операций статистического выбора, которые могут привести к неэффективным или неоптимальным результатам. ## Метод Для устранения этих проблем предлагается Learnable Reparameterized Graph Construction (LRGC). Метод основывается на ключ-запрос-аттенции (key-query attention) между узлами, что позволяет оценивать взаимосвязи в графе. Далее, используется метод мягкого порога (soft-threshold reparameterization) для выбора ребер, который позволяет применять дифференцируемую математическую модель для обучения. Этот подход удаляет необходимость в гиперпараметрах, так как пороговые значения либо оптимизируются в процессе обучения, либо устанавливаются в зависимости от данных. Таким образом, LRGC обеспечивает более точное и гибко настраиваемое представление графа, избавляя модель от зависимости от предварительно заданных гиперпараметров. ## Результаты Для исследования Выделены эксперименты на ImageNet-1k — широко используемой базе данных для задач классификации изображений. Модель ViG-LRGC была сравнена с современными моделями виджет-графов. Она показала лучший результат, обеспечивая более точное представление изображений и превосходя существующие модели схожих размеров. Эта производительность указывает на эффективность предложенного метода в создании более точных и оптимальных графов для обработки изображений. ## Значимость LRGC может быть применено в различных областях компьютерного зрения, включая классификацию изображений, обнаружение объектов и сегментацию. Его главные преимущества заключаются в удалении необходимости в гиперпараметрах, увеличение точности и устойчивости модели. Данный подход позволяет значительно улучшить результаты в задачах обработки изображений, при этом сохраняя модель простую в использовании и эффективную. ## Выводы Результаты исследования показывают, что LRGC является эффективным методом для создания графов в моделях ViG. Он у

Abstract

Image Representation Learning is an important problem in Computer Vision. Traditionally, images were processed as grids, using Convolutional Neural Networks or as a sequence of visual tokens, using Vision Transformers. Recently, Vision Graph Neural Networks (ViG) have proposed the treatment of images as a graph of nodes; which provides a more intuitive image representation. The challenge is to construct a graph of nodes in each layer that best represents the relations between nodes and does not need a hyper-parameter search. ViG models in the literature depend on non-parameterized and non-learnable statistical methods that operate on the latent features of nodes to create a graph. This might not select the best neighborhood for each node. Starting from k-NN graph construction to HyperGraph Construction and Similarity-Thresholded graph construction, these methods lack the ability to provide a learnable hyper-parameter-free graph construction method. To overcome those challenges, we present the Learnable Reparameterized Graph Construction (LRGC) for Vision Graph Neural Networks. LRGC applies key-query attention between every pair of nodes; then uses soft-threshold reparameterization for edge selection, which allows the use of a differentiable mathematical model for training. Using learnable parameters to select the neighborhood removes the bias that is induced by any clustering or thresholding methods previously introduced in the literature. In addition, LRGC allows tuning the threshold in each layer to the training data since the thresholds are learnable through training and are not provided as hyper-parameters to the model. We demonstrate that the proposed ViG-LRGC approach outperforms state-of-the-art ViG models of similar sizes on the ImageNet-1k benchmark dataset.

Ссылки и действия

Связанные статьи

Textual and Visual Guided Task Adaptation for Source-Free Cross-Domain Few-Shot ...

Резюме: Научная статья рассматривает проблему деградации качества сегментации в задачах Few-Shot Segmentation (FSS) при ...

2025-08-09