Robust Vision-Language Models via Tensor Decomposition: A Defense Against Adversarial Attacks

2509.16163v1 cs.CV, cs.AI, cs.CL 2025-09-23
Авторы:

Het Patel, Muzammil Allie, Qian Zhang, Jia Chen, Evangelos E. Papalexakis

Резюме на русском

#### Контекст Vision-Language Models (VLMs) становятся все более популярными в области многомодального понимания, особенно в задачах распознавания объектов и текстов. Однако эти модели чувствительны к адверсарным атакам, когда незначительные изменения в входных данных могут привести к серьезным ошибкам. Эта жечь между точностью и уязвимостью ограничивает их применение в реальной жизни. Существуют методы улучшения устойчивости VLMs, но они требуют дорогостоящих реинтринзирований или значительных изменений архитектуры. Наша работа сосредотачивается на разработке легковесного, универсального метода, который может быть применен к уже обученным моделям, не требуя их переучивания. #### Метод Мы предлагаем метод основанный на тензорной декомпозиции для фильтрации адверсарного шума в визуальных репрезентациях. Наша идея заключается в том, чтобы декомпозировать тензоры, представляющие входные данные модели, используя метод Тензорного Трена (Tensor Train). Это позволяет выделить адверсарные смущения и удалить их, оставив основные характеристики входных данных. Метод может быть применен ко всем существующим VLMs, не требуя никаких изменений в их архитектуре или дополнительной модерированной обучения. Мы оптимизировали гиперпараметры, такие как ранг тензора и уровень резонанса, чтобы достичь оптимального баланса между уязвимостью и устойчивостью. #### Результаты Мы проверили нашу модель на двух крупных датасетах: Flickr30K и COCO. На Flickr30K, мы восстановили 12.3% проигранной точности из-за адверсарных атак, повысив Recall@1 от 7.5% до 19.8%. На COCO, мы достигли повышения точности с 3.8% до 11.9%, что соответствует восстановлению 8.1% пропущенных в данных точности. Мы также провели подробный анализ, показав, что подбор гиперпараметров, таких как ранг тензора (8-32) и уровень резонанса ($\alpha=0.1-0.2$), является ключевым для успеха этого подхода. #### Значимость Наша работа предлагает практическое решение для улучшения устойчивости VLMs к адверсарным атакам. Она может быть легко интегрирована в существующие модели без необходимости переучивания или изменений архитектуры. Мы показали, что наш подход эффективен на разных датасетах и может быть применен в различных приложениях, таких как поиск изображений, мультимедийный поиск и обнаружение объектов в реальном времени. Это демонстрирует потенциал нашего метода для увеличения надежности и устойчивости VLMs в реальных условиях. #### Выводы Мы представили новую, легковесную методику для защиты VLMs от адверсарных атак, базирующуюся на тензорной декомпозиции. Мы

Abstract

Vision language models (VLMs) excel in multimodal understanding but are prone to adversarial attacks. Existing defenses often demand costly retraining or significant architecture changes. We introduce a lightweight defense using tensor decomposition suitable for any pre-trained VLM, requiring no retraining. By decomposing and reconstructing vision encoder representations, it filters adversarial noise while preserving meaning. Experiments with CLIP on COCO and Flickr30K show improved robustness. On Flickr30K, it restores 12.3\% performance lost to attacks, raising Recall@1 accuracy from 7.5\% to 19.8\%. On COCO, it recovers 8.1\% performance, improving accuracy from 3.8\% to 11.9\%. Analysis shows Tensor Train decomposition with low rank (8-32) and low residual strength ($\alpha=0.1-0.2$) is optimal. This method is a practical, plug-and-play solution with minimal overhead for existing VLMs.

Ссылки и действия