SpecPrune-VLA: Accelerating Vision-Language-Action Models via Action-Aware Self-Speculative Pruning

2509.05614v1 cs.CV, cs.AI, cs.RO 2025-09-10
Авторы:

Hanzhen Wang, Jiaming Xu, Jiayi Pan, Yongkang Zhou, Guohao Dai

Резюме на русском

## Контекст Vision-Language-Action (VLA) модели, объединяющие визуальную обработку, естественный язык и действия, широко применяются в области распознавания действий, сенсорных систем и автоматического управления. Однако эти модели требуют высокой вычислительной мощности, что ограничивает их применение в реальном времени и на устройствах с ограниченными ресурсами. Одним из подходов к ускорению таких моделей является pruning, то есть удаление ненужных вычислений. Несмотря на существующие методы pruning, они имеют серьезные ограничения: они используют только локальную информацию о действии, не принимая во внимание глобальный контекст предыдущих действий. Это приводит к существенному понижению точности и незначительному ускорению. Мы выявляем высокую схожесть действий в последовательностях и предлагаем использовать две уровней pruning, которые учитывают и локальную, и глобальную информацию. ## Метод SpecPrune-VLA предлагает два уровня pruning: статический на уровне действий и динамический на уровне слоев. На первом уровне введен новый контроллер, классифицирующий действия как грубое и точное (по скорости). Это позволяет адаптировать уровень pruning к требованиям каждого типа действия. На втором уровне мы применяем локальные признаки текущего действия и глобальные отслеживаемые признаки предыдущих действий для выделения важности токенов. Этот подход не требует дополнительной тренировки и является простым в реализации. Мы использовали данные из набора LIBERO для оценки эффективности SpecPrune-VLA. ## Результаты Для оценки SpecPrune-VLA использовались данные из набора LIBERO, а в качестве сравнения взят метод OpenVLA-OFT. На графике представлены результаты скорости выполнения модели на двух разных GPU: NVIDIA A800 и NVIDIA GeForce RTX 3090. Мы заметили, что SpecPrune-VLA дает скоростной прирост в 1.46 раза на A800 и 1.57 раза на RTX 3090, при этом точность уменьшилась на 1.3%, что является приемлемым компромиссом между скоростью и точностью. Это указывает на то, что метод SpecPrune-VLA эффективно ускоряет модель, не существенно затрагивая её точность. ## Значимость Метод SpecPrune-VLA может быть применен в различных сценариях, где необходимо ускорить работу моделей VLA, например, в системах роботов, сенсорных системах, или устройствах с ограниченными ресурсами. Он обеспечивает высокую скорость выполнения с незначительными потерями в точности, что делает его привлекательным решением для реального времени. Его применение может улучшить производительность в системах, требующих непрерывной обработки данных, таких как видеонаблюдение, системы оповещения, или мобильные приложения. ## Выводы Мы представили SpecPr

Abstract

Pruning accelerates compute-bound models by reducing computation. Recently applied to Vision-Language-Action (VLA) models, existing methods prune tokens using only local info from current action, ignoring global context from prior actions, causing >20% success rate drop and limited speedup. We observe high similarity across consecutive actions and propose leveraging both local (current) and global (past) info for smarter token selection. We introduce SpecPrune-VLA, a training-free method with two-level pruning and heuristic control: (1) Static pruning at action level: uses global history and local context to reduce visual tokens per action; (2) Dynamic pruning at layer level: prunes tokens per layer based on layer-specific importance; (3) Lightweight action-aware controller: classifies actions as coarse/fine-grained (by speed), adjusting pruning aggressiveness since fine-grained actions are pruning-sensitive. Experiments on LIBERO show SpecPrune-VLA achieves 1.46 times speedup on NVIDIA A800 and 1.57 times on NVIDIA GeForce RTX 3090 vs. OpenVLA-OFT, with negligible success rate loss.

Ссылки и действия