SpecPrune-VLA: Accelerating Vision-Language-Action Models via Action-Aware Self-Speculative Pruning
2509.05614v1
cs.CV, cs.AI, cs.RO
2025-09-10
Авторы:
Hanzhen Wang, Jiaming Xu, Jiayi Pan, Yongkang Zhou, Guohao Dai
Резюме на русском
## Контекст
Vision-Language-Action (VLA) модели, объединяющие визуальную обработку, естественный язык и действия, широко применяются в области распознавания действий, сенсорных систем и автоматического управления. Однако эти модели требуют высокой вычислительной мощности, что ограничивает их применение в реальном времени и на устройствах с ограниченными ресурсами. Одним из подходов к ускорению таких моделей является pruning, то есть удаление ненужных вычислений. Несмотря на существующие методы pruning, они имеют серьезные ограничения: они используют только локальную информацию о действии, не принимая во внимание глобальный контекст предыдущих действий. Это приводит к существенному понижению точности и незначительному ускорению. Мы выявляем высокую схожесть действий в последовательностях и предлагаем использовать две уровней pruning, которые учитывают и локальную, и глобальную информацию.
## Метод
SpecPrune-VLA предлагает два уровня pruning: статический на уровне действий и динамический на уровне слоев. На первом уровне введен новый контроллер, классифицирующий действия как грубое и точное (по скорости). Это позволяет адаптировать уровень pruning к требованиям каждого типа действия. На втором уровне мы применяем локальные признаки текущего действия и глобальные отслеживаемые признаки предыдущих действий для выделения важности токенов. Этот подход не требует дополнительной тренировки и является простым в реализации. Мы использовали данные из набора LIBERO для оценки эффективности SpecPrune-VLA.
## Результаты
Для оценки SpecPrune-VLA использовались данные из набора LIBERO, а в качестве сравнения взят метод OpenVLA-OFT. На графике представлены результаты скорости выполнения модели на двух разных GPU: NVIDIA A800 и NVIDIA GeForce RTX 3090. Мы заметили, что SpecPrune-VLA дает скоростной прирост в 1.46 раза на A800 и 1.57 раза на RTX 3090, при этом точность уменьшилась на 1.3%, что является приемлемым компромиссом между скоростью и точностью. Это указывает на то, что метод SpecPrune-VLA эффективно ускоряет модель, не существенно затрагивая её точность.
## Значимость
Метод SpecPrune-VLA может быть применен в различных сценариях, где необходимо ускорить работу моделей VLA, например, в системах роботов, сенсорных системах, или устройствах с ограниченными ресурсами. Он обеспечивает высокую скорость выполнения с незначительными потерями в точности, что делает его привлекательным решением для реального времени. Его применение может улучшить производительность в системах, требующих непрерывной обработки данных, таких как видеонаблюдение, системы оповещения, или мобильные приложения.
## Выводы
Мы представили SpecPr
Abstract
Pruning accelerates compute-bound models by reducing computation. Recently
applied to Vision-Language-Action (VLA) models, existing methods prune tokens
using only local info from current action, ignoring global context from prior
actions, causing >20% success rate drop and limited speedup. We observe high
similarity across consecutive actions and propose leveraging both local
(current) and global (past) info for smarter token selection. We introduce
SpecPrune-VLA, a training-free method with two-level pruning and heuristic
control: (1) Static pruning at action level: uses global history and local
context to reduce visual tokens per action; (2) Dynamic pruning at layer level:
prunes tokens per layer based on layer-specific importance; (3) Lightweight
action-aware controller: classifies actions as coarse/fine-grained (by speed),
adjusting pruning aggressiveness since fine-grained actions are
pruning-sensitive. Experiments on LIBERO show SpecPrune-VLA achieves 1.46 times
speedup on NVIDIA A800 and 1.57 times on NVIDIA GeForce RTX 3090 vs.
OpenVLA-OFT, with negligible success rate loss.
Ссылки и действия
Дополнительные ресурсы: