DAC-LoRA: Dynamic Adversarial Curriculum for Efficient and Robust Few-Shot Adaptation

2509.20792v1 cs.CV, cs.AI, cs.LG 2025-09-26

Авторы:

Ved Umrajkar

Резюме на русском

## Контекст Визионно-языковые модели (Vision-Language Models, VLMs) являются основополагающими для решения задач в критических областях, таких как автономное передвижение, медицинское диагностирование и модерация контента. Интеграция этих моделей в реальные приложения, однако, сталкивается с рядом трудностей, в том числе их уязвимостью к адверсарным атакам, которые могут серьезно повлиять на безопасность и надежность решений. Одна из самых значимых моделей — CLIP — является центральным элементом для многих визуальных моделей, что делает ее уязвимость крайне критичной. Большинство методов жесткой адаптации, такие как fine-tuning, требуют больших объемов данных и ресурсов, что делает их неэффективными для малообучения (few-shot adaptation). Недавние работы, такие как Parameter-Efficient Fine-Tuning (PEFT), предлагают эффективные альтернативы, но недостаточно устойчивы к адверсарным атакам. Мы предлагаем DAC-LoRA, новую структуру для укрепления уязвимостей VLMs с помощью динамического метода гибкого обучения с учетом адверсарных нападок. ## Метод DAC-LoRA основывается на интеграции динамического обучения с учетом адверсарных примеров (adversarial curriculum) и Parameter-Efficient Fine-Tuning (PEFT) в целях повышения устойчивости к адверсарным атакам. Метод использует First-Order Stationary Condition (FOSC) и TRADES-inspired loss для управления балансом между безопасностью и чистотой прогнозов. Алгоритм DAC-LoRA работает над небольшими данными в малообучении и использует итеративный процесс обучения, который постепенно усиливает атаки, обеспечивая модели CLIP устойчивость к широкому спектру адверсарных вариантов. Эта гибкая архитектура позволяет DAC-LoRA легко интегрироваться в существующие PEFT-модели без основных изменений их архитектуры. ## Результаты Мы провели эксперименты на крупных датасетах, таких как ImageNet и CIFAR-10, чтобы оценить эффективность DAC-LoRA. Модель показала значительные улучшения в устойчивости к адверсарным атакам, в то же время поддерживая высокую чистую точность. Мы сравнили результаты с другими PEFT-методами, включая LoRA и Prompt Tuning. Результаты показали, что DAC-LoRA не только улучшает устойчивость, но и уменьшает время обучения и затраты ресурсов в сравнении с жесткими методами. Благодаря его интеграбельности, DAC-LoRA может быть легко внедрен в различные VLM-приложения, что демонстрирует его практическую значимость. ## Значимость DAC-LoRA широко может быть применен в различных областях, таких как автономная техника, медицинская информатика и модерация контента. Он предоставляет существенные преимущества по сравнению с другими PEFT-методами, включая увеличение у

Abstract

Vision-Language Models (VLMs) are foundational to critical applications like autonomous driving, medical diagnosis, and content moderation. While Parameter-Efficient Fine-Tuning (PEFT) methods like LoRA enable their efficient adaptation to specialized tasks, these models remain vulnerable to adversarial attacks that can compromise safety-critical decisions. CLIP, the backbone for numerous downstream VLMs, is a high-value target whose vulnerabilities can cascade across the multimodal AI ecosystem. We propose Dynamic Adversarial Curriculum DAC-LoRA, a novel framework that integrates adversarial training into PEFT. The core principle of our method i.e. an intelligent curriculum of progressively challenging attack, is general and can potentially be applied to any iterative attack method. Guided by the First-Order Stationary Condition (FOSC) and a TRADES-inspired loss, DAC-LoRA achieves substantial improvements in adversarial robustness without significantly compromising clean accuracy. Our work presents an effective, lightweight, and broadly applicable method to demonstrate that the DAC-LoRA framework can be easily integrated into a standard PEFT pipeline to significantly enhance robustness.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

DAC-LoRA: Dynamic Adversarial Curriculum for Efficient and Robust Few-Shot Adaptation

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

PyroFocus: A Deep Learning Approach to Real-Time Wildfire Detection in Multispec...

ProtoEFNet: Dynamic Prototype Learning for Inherently Interpretable Ejection Fra...

GalaxyDiT: Efficient Video Generation with Guidance Alignment and Adaptive Proxy...

Divide, then Ground: Adapting Frame Selection to Query Types for Long-Form Video...

PSA: Pyramid Sparse Attention for Efficient Video Understanding and Generation

Навигация