VCNet: Recreating High-Level Visual Cortex Principles for Robust Artificial Vision
2508.02995v1
cs.NE, cs.AI, cs.CV, cs.LG, 68T07, 68T45, 68U10, I.2.6; I.4.8; I.2.10; I.5.1
2025-08-09
Авторы:
Brennen A. Hill, Zhang Xinyu, Timothy Putra Prasetio
Резюме на русском
Модели сверточных нейронных сетей (CNN), хотя и достигают высокой точности в задачах классификации изображений, обладают серьезными ограничениями: низкая эффективность использования данных, слабая обществойность за пределами обучающего набора и чувствительность к адверсарным направленным помехам. Работа основывается на том, что приматская визуальная система достигает эффективности и высокой устойчивости благодаря своей сложной структуре. В этой работе предлагается VCNet — модель, которая эмулирует биологические принципы работы визуального коры, включая горизонтальное и вертикальное процессинг, двойной поток информации и возвратные прогностические сигналы. Модель протестирована на двух специализированных датасетах: Spots-10 и задаче распознавания изображений в лучах. Результаты показали, что VCNet демонстрирует высокую точность классификации (92.1% на Spots-10 и 74.4% на лучах), превосходя сравнимые модели. Это доказывает, что интеграция природных принципов может привести к более эффективным и устойчивым моделям для решения проблем в машинном обучении.
Abstract
Despite their success in image classification, modern convolutional neural
networks (CNNs) exhibit fundamental limitations, including data inefficiency,
poor out-of-distribution generalization, and vulnerability to adversarial
perturbations. The primate visual system, in contrast, demonstrates superior
efficiency and robustness, suggesting that its architectural principles may
offer a blueprint for more capable artificial vision systems. This paper
introduces Visual Cortex Network (VCNet), a novel neural network architecture
whose design is informed by the macro-scale organization of the primate visual
cortex. VCNet emulates key biological mechanisms, including hierarchical
processing across distinct cortical areas, dual-stream information segregation,
and top-down predictive feedback. We evaluate VCNet on two specialized
benchmarks: the Spots-10 animal pattern dataset and a light field image
classification task. Our results show that VCNet achieves a classification
accuracy of 92.1\% on Spots-10 and 74.4\% on the light field dataset,
surpassing contemporary models of comparable size. This work demonstrates that
integrating neuroscientific principles into network design can lead to more
efficient and robust models, providing a promising direction for addressing
long-standing challenges in machine learning.