Cross-Platform Scaling of Vision-Language-Action Models from Edge to Cloud GPUs
2509.11480v1
cs.AI, cs.CV, cs.ET, cs.LG, cs.RO
2025-09-17
Авторы:
Amir Taherin, Juyi Lin, Arash Akbari, Arman Akbari, Pu Zhao, Weiwei Chen, David Kaeli, Yanzhi Wang
Резюме на русском
## Контекст
Vision-Language-Action (VLA) модели представляют собой мощные общие политики для роботизированного управления, которые могут объединять сигналы визуального восприятия и текстовых справочников для управления действиями. Однако их поведение при масштабировании по архитектурам моделей и типам железа, а также их влияние на энергопотребление, остаются недостаточно изученными. Экономичность и эффективность масштабирования VLA-моделей крайне важны для их применения в реальных мировых средах, в том числе для решения проблем в области роботизированных систем, которые требуют быстрого принятия решений в реальном времени. Это исследование стремится оценить свойства масштабирования VLA-моделей, охватив различные архитектуры и платформы графических процессоров.
## Метод
Для исследования масштабирования VLA-моделей были использованы пять представительных моделей, включая две новые архитектуры. Модели были эвалируемы на двух типах платформ: устройствах с ограниченным энергопотреблением (edge) и высокопроизводительных системах датацентров (datacenter) с GPU-акселерораторами. Использовался LIBERO бенчмарк для измерения точности моделей (accuracy) и системных метрик: задержки (latency), пропускной способности (throughput) и максимальному потреблению памяти (peak memory usage). Эксперименты проводились с разными конфигурациями энергопотребления на edge-устройствах и различными уровнями производительности на GPU-платформах.
## Результаты
Исследование показало, что архитектурные решения, такие как размер модели и токенизация действий, оказывают существенное влияние на пропускную способность и потребление памяти. На устройствах с ограниченным энергопотреблением были выявлены нелинейные деградации производительности, при которых некоторые конфигурации edge-устройств показывали подобные результаты, как и более старые системы датацентров. Было также установлено, что модели с высокой пропускной способностью могут достигаться без существенной потери точности. Эти результаты оспособляют на практическом применении VLA-моделей, при этом вызывая вопросы о приоритете датацентров для инференса в области робототехники.
## Значимость
Результаты имеют значимые последствия для различных областей применения, включая роботизированные системы, системы распознавания речи и обработку естественного языка. Возможности масштабирования на GPU-платформах от edge до cloud дают новые возможности для эффективного использования ресурсов и гибкости в развертывании. Это делает VLA-модели более привлекательными для реализации в реальных приложениях. Будущие исследования будут сконцентрированы
Abstract
Vision-Language-Action (VLA) models have emerged as powerful generalist
policies for robotic control, yet their performance scaling across model
architectures and hardware platforms, as well as their associated power
budgets, remain poorly understood. This work presents an evaluation of five
representative VLA models -- spanning state-of-the-art baselines and two newly
proposed architectures -- targeting edge and datacenter GPU platforms. Using
the LIBERO benchmark, we measure accuracy alongside system-level metrics,
including latency, throughput, and peak memory usage, under varying edge power
constraints and high-performance datacenter GPU configurations. Our results
identify distinct scaling trends: (1) architectural choices, such as action
tokenization and model backbone size, strongly influence throughput and memory
footprint; (2) power-constrained edge devices exhibit non-linear performance
degradation, with some configurations matching or exceeding older datacenter
GPUs; and (3) high-throughput variants can be achieved without significant
accuracy loss. These findings provide actionable insights when selecting and
optimizing VLAs across a range of deployment constraints. Our work challenges
current assumptions about the superiority of datacenter hardware for robotic
inference.