Cross-Platform Scaling of Vision-Language-Action Models from Edge to Cloud GPUs

2509.11480v1 cs.AI, cs.CV, cs.ET, cs.LG, cs.RO 2025-09-17
Авторы:

Amir Taherin, Juyi Lin, Arash Akbari, Arman Akbari, Pu Zhao, Weiwei Chen, David Kaeli, Yanzhi Wang

Резюме на русском

## Контекст Vision-Language-Action (VLA) модели представляют собой мощные общие политики для роботизированного управления, которые могут объединять сигналы визуального восприятия и текстовых справочников для управления действиями. Однако их поведение при масштабировании по архитектурам моделей и типам железа, а также их влияние на энергопотребление, остаются недостаточно изученными. Экономичность и эффективность масштабирования VLA-моделей крайне важны для их применения в реальных мировых средах, в том числе для решения проблем в области роботизированных систем, которые требуют быстрого принятия решений в реальном времени. Это исследование стремится оценить свойства масштабирования VLA-моделей, охватив различные архитектуры и платформы графических процессоров. ## Метод Для исследования масштабирования VLA-моделей были использованы пять представительных моделей, включая две новые архитектуры. Модели были эвалируемы на двух типах платформ: устройствах с ограниченным энергопотреблением (edge) и высокопроизводительных системах датацентров (datacenter) с GPU-акселерораторами. Использовался LIBERO бенчмарк для измерения точности моделей (accuracy) и системных метрик: задержки (latency), пропускной способности (throughput) и максимальному потреблению памяти (peak memory usage). Эксперименты проводились с разными конфигурациями энергопотребления на edge-устройствах и различными уровнями производительности на GPU-платформах. ## Результаты Исследование показало, что архитектурные решения, такие как размер модели и токенизация действий, оказывают существенное влияние на пропускную способность и потребление памяти. На устройствах с ограниченным энергопотреблением были выявлены нелинейные деградации производительности, при которых некоторые конфигурации edge-устройств показывали подобные результаты, как и более старые системы датацентров. Было также установлено, что модели с высокой пропускной способностью могут достигаться без существенной потери точности. Эти результаты оспособляют на практическом применении VLA-моделей, при этом вызывая вопросы о приоритете датацентров для инференса в области робототехники. ## Значимость Результаты имеют значимые последствия для различных областей применения, включая роботизированные системы, системы распознавания речи и обработку естественного языка. Возможности масштабирования на GPU-платформах от edge до cloud дают новые возможности для эффективного использования ресурсов и гибкости в развертывании. Это делает VLA-модели более привлекательными для реализации в реальных приложениях. Будущие исследования будут сконцентрированы

Abstract

Vision-Language-Action (VLA) models have emerged as powerful generalist policies for robotic control, yet their performance scaling across model architectures and hardware platforms, as well as their associated power budgets, remain poorly understood. This work presents an evaluation of five representative VLA models -- spanning state-of-the-art baselines and two newly proposed architectures -- targeting edge and datacenter GPU platforms. Using the LIBERO benchmark, we measure accuracy alongside system-level metrics, including latency, throughput, and peak memory usage, under varying edge power constraints and high-performance datacenter GPU configurations. Our results identify distinct scaling trends: (1) architectural choices, such as action tokenization and model backbone size, strongly influence throughput and memory footprint; (2) power-constrained edge devices exhibit non-linear performance degradation, with some configurations matching or exceeding older datacenter GPUs; and (3) high-throughput variants can be achieved without significant accuracy loss. These findings provide actionable insights when selecting and optimizing VLAs across a range of deployment constraints. Our work challenges current assumptions about the superiority of datacenter hardware for robotic inference.

Ссылки и действия