The Better You Learn, The Smarter You Prune: Towards Efficient Vision-language-action Models via Differentiable Token Pruning
2509.12594v1
cs.RO, cs.CL, cs.CV
2025-09-18
Авторы:
Titong Jiang, Xuefeng Jiang, Yuan Ma, Xin Wen, Bailin Li, Kun Zhan, Peng Jia, Yahui Liu, Sheng Sun, Xianpeng Lang
Резюме на русском
## Контекст
Визуально-языково-действительные (Vision-Language-Action, VLA) модели представляют собой мощные инструменты для выполнения сложных задач в реальном мире, особенно в сфере робототехники. Однако эти модели часто сталкиваются с проблемами эффективности, возникающими из-за тяжеловесной вычислительной нагрузки, связанной с использованием внимательных методов (attention-based methods) на больших множествах визуальных токенов. Эта проблема становится особенно критической при развертывании на ресурс-ограниченных платформах, таких как мобильные устройства или роботы с ограниченными вычислительными возможностями. Напрямую решать эту проблему требует создания методов, способных эффективно снижать нагрузку, не ухудшая получаемые результаты. Наше исследование сосредоточено на развитии такого подхода, способного обеспечить эффективность в реальном времени и сохранить высокую точность выполнения задач.
## Метод
Мы предлагаем LightVLA — простой, но эффективный разностиальный (differentiable) метод токен-преобразования (token pruning) для VLA-моделей. Основным идейным принципом LightVLA является адаптивное удаление ненужных токенов в процессе работы модели, чтобы сократить вычислительную нагрузку без потери точности. Реализация этого подхода основывается на динамическом определении важности токенов с помощью динамических запросов (queries) и применении Gumbel-softmax для различения токенов. Это позволяет модели самостоятельно "учиться" поддерживать только наиболее важные токены для того, чтобы выполнить задачу. Этот процесс не требует дополнительных параметров для обучения и может быть интегрирован с любыми современными инференсными фреймворками.
## Результаты
Мы провели эксперименты на LIBERO бенчмарке, сравнив LightVLA с другими VLA-моделями и существующими методами токен-преобразования. Результаты показали, что LightVLA не только повышает успешность выполнения задач, но и значительно уменьшает объем вычислений (FLOPs) и задержки (latency). Точнее, LightVLA снижает FLOPs и latency на 59.1% и 38.2% соответственно, при этом повышая успешность выполнения задач на 2.9%. Эти результаты указывают на успешное достижение сбалансированного соотношения эффективности и точности в работе модели. Для дальнейшего исследования, мы также проанализировали особенности learnable query-based pruning метода LightVLA*, который также показал высокую эффективность.
## Значимость
LightVLA открывает новые возможности для использования VLA-моделей в реальном времени, особенно на ресурс-ограниченных платформах. Он привносит значительные преимущества в области уменьшения требований к вычислениям и повышения эффективности при выполнении задач. Это может привести к расши
Abstract
We present LightVLA, a simple yet effective differentiable token pruning
framework for vision-language-action (VLA) models. While VLA models have shown
impressive capability in executing real-world robotic tasks, their deployment
on resource-constrained platforms is often bottlenecked by the heavy
attention-based computation over large sets of visual tokens. LightVLA
addresses this challenge through adaptive, performance-driven pruning of visual
tokens: It generates dynamic queries to evaluate visual token importance, and
adopts Gumbel softmax to enable differentiable token selection. Through
fine-tuning, LightVLA learns to preserve the most informative visual tokens
while pruning tokens which do not contribute to task execution, thereby
improving efficiency and performance simultaneously. Notably, LightVLA requires
no heuristic magic numbers and introduces no additional trainable parameters,
making it compatible with modern inference frameworks. Experimental results
demonstrate that LightVLA outperforms different VLA models and existing token
pruning methods across diverse tasks on the LIBERO benchmark, achieving higher
success rates with substantially reduced computational overhead. Specifically,
LightVLA reduces FLOPs and latency by 59.1% and 38.2% respectively, with a 2.9%
improvement in task success rate. Meanwhile, we also investigate the learnable
query-based token pruning method LightVLA* with additional trainable
parameters, which also achieves satisfactory performance. Our work reveals that
as VLA pursues optimal performance, LightVLA spontaneously learns to prune
tokens from a performance-driven perspective. To the best of our knowledge,
LightVLA is the first work to apply adaptive visual token pruning to VLA tasks
with the collateral goals of efficiency and performance, marking a significant
step toward more efficient, powerful and practical real-time robotic systems.
Ссылки и действия
Дополнительные ресурсы: