Modeling Rapid Contextual Learning in the Visual Cortex with Fast-Weight Deep Autoencoder Networks
2508.04988v1
cs.CV
2025-08-09
Авторы:
Yue Li, Weifan Wang, Tai Sing Lee
Резюме на русском
Недавние нейрофизиологические исследования показали, что верхние слои визуального коры быстро адаптируются к глобальному контексту изображений, что проявляется в спаривании представлений и снижении активности при восприятии знакомых контекстов. Этот эффект связан с рекуррентными взаимодействиями в нейронных сетях, в частности с использованием "медленных" весов для формирования нелинейных преобразований манифолтов. В данном исследовании использована Vision Transformer-based autoencoder для исследования процесса быстрого обучения глобального контекста в видеосетях. Мы предлагаем внедрение "быстрых" весов с помощью Low-Rank Adaptation (LoRA) для моделирования эффекта скорости в сетях с аутоэнкодером. Наши результаты показали, что (1) ViT-аутоэнкодер моделирует манифолтовое преобразование, аналогичное моделированию привычности в собственных сетях, (2) привычное обучение способствует выравниванию латентных представлений слоёв с глобальной информацией, (3) привычное обучение расширяет область внимания в сети, (4) LoRA-веса повышают эффективность этого процесса. Эти результаты выдвигают гибридную архитектуру весов как модель для изучения глобального контекста в визуальных сетях.
Abstract
Recent neurophysiological studies have revealed that the early visual cortex
can rapidly learn global image context, as evidenced by a sparsification of
population responses and a reduction in mean activity when exposed to familiar
versus novel image contexts. This phenomenon has been attributed primarily to
local recurrent interactions, rather than changes in feedforward or feedback
pathways, supported by both empirical findings and circuit-level modeling.
Recurrent neural circuits capable of simulating these effects have been shown
to reshape the geometry of neural manifolds, enhancing robustness and
invariance to irrelevant variations. In this study, we employ a Vision
Transformer (ViT)-based autoencoder to investigate, from a functional
perspective, how familiarity training can induce sensitivity to global context
in the early layers of a deep neural network. We hypothesize that rapid
learning operates via fast weights, which encode transient or short-term memory
traces, and we explore the use of Low-Rank Adaptation (LoRA) to implement such
fast weights within each Transformer layer. Our results show that (1) The
proposed ViT-based autoencoder's self-attention circuit performs a manifold
transform similar to a neural circuit model of the familiarity effect. (2)
Familiarity training aligns latent representations in early layers with those
in the top layer that contains global context information. (3) Familiarity
training broadens the self-attention scope within the remembered image context.
(4) These effects are significantly amplified by LoRA-based fast weights.
Together, these findings suggest that familiarity training introduces global
sensitivity to earlier layers in a hierarchical network, and that a hybrid
fast-and-slow weight architecture may provide a viable computational model for
studying rapid global context learning in the brain.
Ссылки и действия
Дополнительные ресурсы: