📊 Статистика дайджестов

Всего дайджестов: 34123 Добавлено сегодня: 101

Последнее обновление: сегодня

📄 Cross-Platform Scaling of Vision-Language-Action Models from Edge to Cloud GPUs

2025-09-17

Авторы:

Amir Taherin, Juyi Lin, Arash Akbari, Arman Akbari, Pu Zhao, Weiwei Chen, David Kaeli, Yanzhi Wang

## Контекст Vision-Language-Action (VLA) модели представляют собой мощные общие политики для роботизированного управления, которые могут объединять сигналы визуального восприятия и текстовых справочников для управления действиями. Однако их поведение при масштабировании по архитектурам моделей и типам железа, а также их влияние на энергопотребление, остаются недостаточно изученными. Экономичность и эффективность масштабирования VLA-моделей крайне важны для их применения в реальных мировых средах, в том числе для решения проблем в области роботизированных систем, которые требуют быстрого принятия решений в реальном времени. Это исследование стремится оценить свойства масштабирования VLA-моделей, охватив различные архитектуры и платформы графических процессоров. ## Метод Для исследования масштабирования VLA-моделей были использованы пять представительных моделей, включая две новые архитектуры. Модели были эвалируемы на двух типах платформ: устройствах с ограниченным энергопотреблением (edge) и высокопроизводительных системах датацентров (datacenter) с GPU-акселерораторами. Использовался LIBERO бенчмарк для измерения точности моделей (accuracy) и системных метрик: задержки (latency), пропускной способности (throughput) и максимальному потреблению памяти (peak memory usage). Эксперименты проводились с разными конфигурациями энергопотребления на edge-устройствах и различными уровнями производительности на GPU-платформах. ## Результаты Исследование показало, что архитектурные решения, такие как размер модели и токенизация действий, оказывают существенное влияние на пропускную способность и потребление памяти. На устройствах с ограниченным энергопотреблением были выявлены нелинейные деградации производительности, при которых некоторые конфигурации edge-устройств показывали подобные результаты, как и более старые системы датацентров. Было также установлено, что модели с высокой пропускной способностью могут достигаться без существенной потери точности. Эти результаты оспособляют на практическом применении VLA-моделей, при этом вызывая вопросы о приоритете датацентров для инференса в области робототехники. ## Значимость Результаты имеют значимые последствия для различных областей применения, включая роботизированные системы, системы распознавания речи и обработку естественного языка. Возможности масштабирования на GPU-платформах от edge до cloud дают новые возможности для эффективного использования ресурсов и гибкости в развертывании. Это делает VLA-модели более привлекательными для реализации в реальных приложениях. Будущие исследования будут сконцентрированы

Annotation:

Vision-Language-Action (VLA) models have emerged as powerful generalist policies for robotic control, yet their performance scaling across model architectures and hardware platforms, as well as their associated power budgets, remain poorly understood. This work presents an evaluation of five representative VLA models -- spanning state-of-the-art baselines and two newly proposed architectures -- targeting edge and datacenter GPU platforms. Using the LIBERO benchmark, we measure accuracy alongside...

ID: 2509.11480v1 cs.AI, cs.CV, cs.ET, cs.LG, cs.RO

arXiv PDF