An Investigation of Visual Foundation Models Robustness

2508.16225v1 cs.CV, cs.AI, cs.LG 2025-08-26

Авторы:

Sandeep Gupta, Roberto Passerone

Резюме на русском

#### Контекст Visual Foundation Models (VFMs) являются важной составляющей современной компьютерной зрения, обеспечивая высокую точность и универсальность для различных задач, таких как обнаружение объектов, классификация изображений, сегментация и позиционирование. Использование технологий VFMs стало беспрецедентно распространенным в различных сферах, включая безопасность, автоматизированные системы управления транспортом, анализ медицинских изображений и другие приложения, требующие высокой надежности и прочности. Однако, несмотря на их эффективность, VFMs часто сталкиваются с проблемами, связанными с проникновением шумов, изменением данных, атаками адверсарного характера и динамическими условиями окружающей среды. Эти проблемы могут привести к дефектной работе моделей, что требует разработки эффективных методов повышения их прочности и устойчивости к таким факторам. #### Метод Для оценки прочности VFMs используются различные методы, включая метрики устойчивости, эмпирические защитные методы и инструменты анализа различных данных. Методология включает в себя изучение алгоритмов обучения, адаптации моделей к новым условиям и оценку их прочности в различных сценариях. Также, в рамках исследования, проводится анализ основных компонентов моделей, таких как архитектура сверток, нейронные сети и связанные с ними компоненты, которые влияют на их устойчивость. Для этих целей, в работе применяются аналитические модели, методы бенчмаркинга и симуляционные эксперименты, что позволяет изучить точность, устойчивость к шумам и влияние различных факторов на поведение моделей. #### Результаты Исследование показало, что увеличение устойчивости моделей к шуму и различным атакам приводит к значительному повышению их производительности в реальных условиях. Результаты экспериментов показали, что использование адаптивных методов обучения и применения защитных методов, таких как адаптивная нормализация и добавление шума во время обучения, существенно повышают устойчивость моделей. Также, был проведен анализ характеристик различных алгоритмов и их влияния на способность моделей выдерживать различные типы искажений и нападений. Эти результаты подтвердили, что сильная устойчивость моделей к различным факторам может быть достигнута с помощью тщательного анализа и применения различных методов обучения и оценки. #### Значимость Результаты этого исследования могут быть применены в различных областях, включая безопасность, автоматизированные системы перевозок, медицинский интерпретационный анализ и другие важные технологии.

Abstract

Visual Foundation Models (VFMs) are becoming ubiquitous in computer vision, powering systems for diverse tasks such as object detection, image classification, segmentation, pose estimation, and motion tracking. VFMs are capitalizing on seminal innovations in deep learning models, such as LeNet-5, AlexNet, ResNet, VGGNet, InceptionNet, DenseNet, YOLO, and ViT, to deliver superior performance across a range of critical computer vision applications. These include security-sensitive domains like biometric verification, autonomous vehicle perception, and medical image analysis, where robustness is essential to fostering trust between technology and the end-users. This article investigates network robustness requirements crucial in computer vision systems to adapt effectively to dynamic environments influenced by factors such as lighting, weather conditions, and sensor characteristics. We examine the prevalent empirical defenses and robust training employed to enhance vision network robustness against real-world challenges such as distributional shifts, noisy and spatially distorted inputs, and adversarial attacks. Subsequently, we provide a comprehensive analysis of the challenges associated with these defense mechanisms, including network properties and components to guide ablation studies and benchmarking metrics to evaluate network robustness.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

An Investigation of Visual Foundation Models Robustness

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

PyroFocus: A Deep Learning Approach to Real-Time Wildfire Detection in Multispec...

ProtoEFNet: Dynamic Prototype Learning for Inherently Interpretable Ejection Fra...

GalaxyDiT: Efficient Video Generation with Guidance Alignment and Adaptive Proxy...

Divide, then Ground: Adapting Frame Selection to Query Types for Long-Form Video...

PSA: Pyramid Sparse Attention for Efficient Video Understanding and Generation

Навигация