Eva-VLA: Evaluating Vision-Language-Action Models' Robustness Under Real-World Physical Variations
2509.18953v1
cs.RO, cs.AI
2025-09-25
Авторы:
Hanqing Liu, Jiahuan Long, Junqi Wu, Jiacheng Hou, Huili Tang, Tingsong Jiang, Weien Zhou, Wen Yao
Резюме на русском
## Контекст
Vision-Language-Action (VLA) модели являются перспективным подходом в области роботизированной манипуляции, объединяя возможности зрительного восприятия, естественного языка и действий. Однако их устойчивость к реальному миру, особенно под воздействием физических вариаций, остается значительной непроясненностью. Основные проблемы заключаются в том, что существующие методы не полностью раскрываются в реальных условиях, в то время как методы эффективного и широковещательного тестирования отсутствуют. Мотивацией для разработки Eva-VLA является необходимость создания универсального фреймворка для оценки устойчивости VLA-моделей к реальным физическим переменам, чтобы предотвратить непредсказуемые отказы во время развертывания.
## Метод
Eva-VLA предлагает новый подход для оценки устойчивости VLA-моделей. Он преобразует дискретные физические вариации в непрерывные оптимизационные задачи, позволяя эффективно искать худшие сценарии. Фреймворк охватывает три ключевых аспекта: (1) **объектные трансформации**, влияющие на пространственное разумление; (2) **изменения освещения**, которые оказывают влияние на визуальное восприятие; (3) **адверсарные патчи**, вызывающие путаницу во время распознавания сцены. Оценка устойчивости производится через непрерывный поиск наихудшего сценария, который минимизирует отклик модели, используя современные методы оптимизации.
## Результаты
Эксперименты проводились с использованием нескольких современных VLA-моделей, включая OpenVLA, на различных бенчмарках. Находятся следующие результаты: все три типа вариаций вызывают сбои моделей на уровне более 60%. Особенно впечатляющими были результаты по **объектным трансформациям**, которые приводили к сбою до 97.8% в задачах с большим горизонтом времени. Эти результаты показывают значительные разрывы между успехами в управляемых лабораторных условиях и неопределенностью в реальных условиях.
## Значимость
Eva-VLA может быть применено в различных областях, включая роботизированную манипуляцию, системы автоматизации и визуальное сопровождение. Его основные преимущества заключаются в способности систематически оценивать устойчивость моделей, обнаруживать слабые места и обеспечивать более надежную подготовку к развертыванию. Это может привести к значительным улучшениям в поле визуально-языковой роботизированной манипуляции, снижению неопределенности работы моделей в реальных условиях и увеличению надежности и производительности систем.
## Вывод
Abstract
Vision-Language-Action (VLA) models have emerged as promising solutions for
robotic manipulation, yet their robustness to real-world physical variations
remains critically underexplored. To bridge this gap, we propose Eva-VLA, the
first unified framework that systematically evaluates the robustness of VLA
models by transforming discrete physical variations into continuous
optimization problems. However, comprehensively assessing VLA robustness
presents two key challenges: (1) how to systematically characterize diverse
physical variations encountered in real-world deployments while maintaining
evaluation reproducibility, and (2) how to discover worst-case scenarios
without prohibitive real-world data collection costs efficiently. To address
the first challenge, we decompose real-world variations into three critical
domains: object 3D transformations that affect spatial reasoning, illumination
variations that challenge visual perception, and adversarial patches that
disrupt scene understanding. For the second challenge, we introduce a
continuous black-box optimization framework that transforms discrete physical
variations into parameter optimization, enabling systematic exploration of
worst-case scenarios. Extensive experiments on state-of-the-art OpenVLA models
across multiple benchmarks reveal alarming vulnerabilities: all variation types
trigger failure rates exceeding 60%, with object transformations causing up to
97.8% failure in long-horizon tasks. Our findings expose critical gaps between
controlled laboratory success and unpredictable deployment readiness, while the
Eva-VLA framework provides a practical pathway for hardening VLA-based robotic
manipulation models against real-world deployment challenges.
Ссылки и действия
Дополнительные ресурсы: