Eva-VLA: Evaluating Vision-Language-Action Models' Robustness Under Real-World Physical Variations

2509.18953v1 cs.RO, cs.AI 2025-09-25
Авторы:

Hanqing Liu, Jiahuan Long, Junqi Wu, Jiacheng Hou, Huili Tang, Tingsong Jiang, Weien Zhou, Wen Yao

Резюме на русском

## Контекст Vision-Language-Action (VLA) модели являются перспективным подходом в области роботизированной манипуляции, объединяя возможности зрительного восприятия, естественного языка и действий. Однако их устойчивость к реальному миру, особенно под воздействием физических вариаций, остается значительной непроясненностью. Основные проблемы заключаются в том, что существующие методы не полностью раскрываются в реальных условиях, в то время как методы эффективного и широковещательного тестирования отсутствуют. Мотивацией для разработки Eva-VLA является необходимость создания универсального фреймворка для оценки устойчивости VLA-моделей к реальным физическим переменам, чтобы предотвратить непредсказуемые отказы во время развертывания. ## Метод Eva-VLA предлагает новый подход для оценки устойчивости VLA-моделей. Он преобразует дискретные физические вариации в непрерывные оптимизационные задачи, позволяя эффективно искать худшие сценарии. Фреймворк охватывает три ключевых аспекта: (1) **объектные трансформации**, влияющие на пространственное разумление; (2) **изменения освещения**, которые оказывают влияние на визуальное восприятие; (3) **адверсарные патчи**, вызывающие путаницу во время распознавания сцены. Оценка устойчивости производится через непрерывный поиск наихудшего сценария, который минимизирует отклик модели, используя современные методы оптимизации. ## Результаты Эксперименты проводились с использованием нескольких современных VLA-моделей, включая OpenVLA, на различных бенчмарках. Находятся следующие результаты: все три типа вариаций вызывают сбои моделей на уровне более 60%. Особенно впечатляющими были результаты по **объектным трансформациям**, которые приводили к сбою до 97.8% в задачах с большим горизонтом времени. Эти результаты показывают значительные разрывы между успехами в управляемых лабораторных условиях и неопределенностью в реальных условиях. ## Значимость Eva-VLA может быть применено в различных областях, включая роботизированную манипуляцию, системы автоматизации и визуальное сопровождение. Его основные преимущества заключаются в способности систематически оценивать устойчивость моделей, обнаруживать слабые места и обеспечивать более надежную подготовку к развертыванию. Это может привести к значительным улучшениям в поле визуально-языковой роботизированной манипуляции, снижению неопределенности работы моделей в реальных условиях и увеличению надежности и производительности систем. ## Вывод

Abstract

Vision-Language-Action (VLA) models have emerged as promising solutions for robotic manipulation, yet their robustness to real-world physical variations remains critically underexplored. To bridge this gap, we propose Eva-VLA, the first unified framework that systematically evaluates the robustness of VLA models by transforming discrete physical variations into continuous optimization problems. However, comprehensively assessing VLA robustness presents two key challenges: (1) how to systematically characterize diverse physical variations encountered in real-world deployments while maintaining evaluation reproducibility, and (2) how to discover worst-case scenarios without prohibitive real-world data collection costs efficiently. To address the first challenge, we decompose real-world variations into three critical domains: object 3D transformations that affect spatial reasoning, illumination variations that challenge visual perception, and adversarial patches that disrupt scene understanding. For the second challenge, we introduce a continuous black-box optimization framework that transforms discrete physical variations into parameter optimization, enabling systematic exploration of worst-case scenarios. Extensive experiments on state-of-the-art OpenVLA models across multiple benchmarks reveal alarming vulnerabilities: all variation types trigger failure rates exceeding 60%, with object transformations causing up to 97.8% failure in long-horizon tasks. Our findings expose critical gaps between controlled laboratory success and unpredictable deployment readiness, while the Eva-VLA framework provides a practical pathway for hardening VLA-based robotic manipulation models against real-world deployment challenges.

Ссылки и действия