Disentangling the Factors of Convergence between Brains and Computer Vision Models

2508.18226v1 cs.AI, q-bio.NC 2025-08-27
Авторы:

Joséphine Raugel, Marc Szafraniec, Huy V. Vo, Camille Couprie, Patrick Labatut, Piotr Bojanowski, Valentin Wyart, Jean-Rémi King

Резюме на русском

## Контекст Современные искусственные нейронные сети (ANN), обученные на естественных изображениях, часто развивают представления, похожие на те, что используются человеческим мозгом для обработки визуальной информации. Однако факторы, влияющие на эту схожесть, остаются под вопрсом. Эта непонимание сильно ограничивает нашу способность разобраться в том, как ANN устроены и каким образом они могут моделировать человеческие законы визуального восприятия. Для разъяснения этой проблемы требуется подробный анализ, включающий в себя изучение влияния различных факторов, таких как размер модели, количество обучения и тип обрабатываемых данных, на возникновение биологически приближенных представлений в моделях. Это позволит получить более глубокое понимание интеллектуальных процессов в живых организмах и ANN. ## Метод Чтобы изучить влияние различных факторов на схожесть представлений ANN и мозга, авторы провели эксперименты с семейством самостоятельно самоучительных визуальных трансформов DINOv3. Эти модели были обучены с помощью самостоятельного самоучителя и систематически отличались по размеру, объему тренировочных данных и типу изображений. Для компаративного анализа представлений изображений, сформированных ANN, и тех, что используются человеческим мозгом, авторы применяли данные fMRI и MEG, обеспечивающие высокую точность в анализе временных и пространственных свойств. Для оценки схожести были использованы три метрики: общая схожесть представлений, организация зон восприятия и динамика временных процессов. ## Результаты Исследования показали, что каждый из трех факторов — размер модели, объем обучения и тип изображений — оказывает влияние на схожесть представлений ANN и мозга, и эти факторы могут работать как независимо, так и взаимодействующими. Особенно выраженное влияние имеют крупные модели DINOv3, обученные на изображениях, близких к типам изображений, с которыми связано человеческое восприятие. Эти модели достигают наивысшей схожести с представлениями мозга. Более того, схожесть развивается по определенной схеме во время обучения: модели вначале приближаются к представлениям нижних сенсорных корут, а затем, при достаточно долгом обучении, к головным представлениям. Эта схема последовательности схожести во время обучения сильно связана с организацией человеческого мозга. ## Значимость Результаты этих исследований имеют широкое применение в области нейробиологии и глубокого обучения. Они демонстрируют, как различные факторы влияют на схожесть представлений между ANN и мозгом, и позволяют лучше понять, каким образо

Abstract

Many AI models trained on natural images develop representations that resemble those of the human brain. However, the factors that drive this brain-model similarity remain poorly understood. To disentangle how the model, training and data independently lead a neural network to develop brain-like representations, we trained a family of self-supervised vision transformers (DINOv3) that systematically varied these different factors. We compare their representations of images to those of the human brain recorded with both fMRI and MEG, providing high resolution in spatial and temporal analyses. We assess the brain-model similarity with three complementary metrics focusing on overall representational similarity, topographical organization, and temporal dynamics. We show that all three factors - model size, training amount, and image type - independently and interactively impact each of these brain similarity metrics. In particular, the largest DINOv3 models trained with the most human-centric images reach the highest brain-similarity. This emergence of brain-like representations in AI models follows a specific chronology during training: models first align with the early representations of the sensory cortices, and only align with the late and prefrontal representations of the brain with considerably more training. Finally, this developmental trajectory is indexed by both structural and functional properties of the human cortex: the representations that are acquired last by the models specifically align with the cortical areas with the largest developmental expansion, thickness, least myelination, and slowest timescales. Overall, these findings disentangle the interplay between architecture and experience in shaping how artificial neural networks come to see the world as humans do, thus offering a promising framework to understand how the human brain comes to represent its visual world.

Ссылки и действия

Связанные статьи

Meta-Learning Theory-Informed Inductive Biases using Deep Kernel Gaussian Proces...

#### Контекст Нейробиология становится все более нуждающейся в сформулированных теориях, которые могут объяснить сложны...

2025-10-01