ImageNet-trained CNNs are not biased towards texture: Revisiting feature reliance through controlled suppression

2509.20234v1 cs.CV, cs.AI, cs.LG 2025-09-26

Авторы:

Tom Burgert, Oliver Stoll, Paolo Rota, Begüm Demir

Резюме на русском

#### Контекст Глубокие нейронные сети, особенно Convolutional Neural Networks (CNNs), стали решающим фактором в развитии машинного обучения. Однако существует широко распространенная углубляющаяся идея, что эти сети доминированно ориентируются на текстуральные признаки во время распознавания объектов. Эта текстура-ориентированная модель влияет на теоретические модели, принятие решений и даже на обучение с подкреплением в глубоком обучении. Недавние исследования Гейроса и его коллег (2021) подтвердили эту текстура-ориентированную модель, выявив, что CNNs упрекаются в недостатке умения использовать свойства формы (shape) при определении объектов. Однако, эти исследования имели тонкости в методологии, включая ситуации, когда сильные конфликты между признаками могли исказить результаты. В настоящей работе мы предлагаем новую перспективу на этот вопрос, предлагая новую методологию, которая избавляет нас от ограничений в управлении признаками. #### Метод Мы разработали новую структуру, называемую **Feature Suppression Framework**, которая позволяет контролировать различные признаки (shape, texture, и цвет) во входных изображениях. В отличие от предыдущих экспериментов, где присутствовал сильный конфликт между признаками, наша методология позволяет измерить их влияние по отдельности. Мы применяем нашу модель к различным типам данных, включая обычные изображения (ImageNet), медицинские изображения и данные спутниковых снимков. Мы оцениваем не только влияние признаков на CNNs, но и на нейронные сети стандартного обучения, включая ViT и ConvNeXt. Наши эксперименты находятся на базе методов линейного классификатора, чтобы точно определить вклад каждого признака. #### Результаты Наши результаты открывают новую главу в теории функционирования CNNs. Мы обнаружили, что CNNs, обученные на ImageNet, не имеют привязки к текстурным признакам, как это было предполагалось. Вместо этого они приоритетно рассматривают локальные признаки формы. Это отклонение от предыдущих исследований подтверждается в экспериментах, где мы показываем, что архитектуры ConvNeXt и ViT по умолчанию имеют более широкий спектр признаков, включая текстуру, но с меньшим рассчитыванием на текстуру по сравнению с CNNs. Мы также выявили различия во взаимодействии признаков в различных областях применения, например, в случае медицинских изображений, где цвет играет ключевую роль. #### Значимость Наши находки имеют решающее значение для дискурса о природе и ограничениях CNNs. Мы показали, что они не могут быть полностью ограничены текстурой, а вместо этого ориентируются на форму. Это открывает

Abstract

The hypothesis that Convolutional Neural Networks (CNNs) are inherently texture-biased has shaped much of the discourse on feature use in deep learning. We revisit this hypothesis by examining limitations in the cue-conflict experiment by Geirhos et al. To address these limitations, we propose a domain-agnostic framework that quantifies feature reliance through systematic suppression of shape, texture, and color cues, avoiding the confounds of forced-choice conflicts. By evaluating humans and neural networks under controlled suppression conditions, we find that CNNs are not inherently texture-biased but predominantly rely on local shape features. Nonetheless, this reliance can be substantially mitigated through modern training strategies or architectures (ConvNeXt, ViTs). We further extend the analysis across computer vision, medical imaging, and remote sensing, revealing that reliance patterns differ systematically: computer vision models prioritize shape, medical imaging models emphasize color, and remote sensing models exhibit a stronger reliance towards texture. Code is available at https://github.com/tomburgert/feature-reliance.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

ImageNet-trained CNNs are not biased towards texture: Revisiting feature reliance through controlled suppression

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

PyroFocus: A Deep Learning Approach to Real-Time Wildfire Detection in Multispec...

ProtoEFNet: Dynamic Prototype Learning for Inherently Interpretable Ejection Fra...

GalaxyDiT: Efficient Video Generation with Guidance Alignment and Adaptive Proxy...

Divide, then Ground: Adapting Frame Selection to Query Types for Long-Form Video...

PSA: Pyramid Sparse Attention for Efficient Video Understanding and Generation

Навигация