Leave No Observation Behind: Real-time Correction for VLA Action Chunks
2509.23224v1
cs.RO, cs.AI, cs.CV, cs.SY, eess.SY
2025-10-01
Авторы:
Kohei Sendai, Maxime Alvarez, Tatsuya Matsushima, Yutaka Matsuo, Yusuke Iwasawa
Резюме на русском
#### Контекст
В многих приложениях, таких как робототехника, автоматизированные системы и искусственный интеллект, важно обеспечивать высокую эффективность и реактивность. Одним из ключевых подходов является использование Vision-Language-Action (VLA) моделей, которые позволяют объединять визуальные сигналы, языковые команды и действия в систематические решения. Однако существуют проблемы, связанные с высоким задержанием при инференсе и проблемами с корректным принятием решений на больших горизонтах времени. Это приводит к потере точности и реактивности в реальном времени. Данная статья фокусируется на улучшении реакции VLA-моделей в ситуациях, где задержка инференса и длинные горизонты времени становятся критичными. Мы предлагаем Asynchronous Action Chunk Correction (A2C2) — легковесное решение, которое добавляет временно-активные коррекции к базовым действиям модели.
#### Метод
Методология A2C2 основывается на асинхронном подходе к коррекции action chunks в реальном времени. Решение состоит в том, чтобы каждый шаг управления добавлял в базовую модель VLA дополнительный корректирующий модуль. Этот модуль принимает в качестве входных данных последние наблюдения, базовое действие, которое было получено от VLA-модели, позиционную особенность, которая определяет индекс действия внутри чанка, а также некоторые другие фичи из базовой политики. Ответ модуля — это зависимость времени, которая исправляет базовый вывод без необходимости переучивания всей системы. Мы используем свёрточные нейронные сети для выполнения коррекции, чтобы обеспечить высокую скорость и эффективность.
#### Результаты
Мы проверили нашу модель на двух наборах данных: Kinetix Dynamic Task Suite (12 задач) и LIBERO Spatial. Проводили эксперименты, меняя уровни задержки инференса и горизонт выполнения. Результаты показали, что A2C2 улучшает успешность задач на +23% в случае увеличения задержки и на +7% при больших горизонтах выполнения, в сравнении с Real-Time Chunking (RTC). Добавленная коррекция повышает реактивность и уменьшает ошибки в реальном времени, не требуя полного переучивания модели. Анализ производительности показал, что дополнительные ресурсы, требуемые для A2C2, незначительны в сравнении с большими VLA-моделями.
#### Значимость
Предложенный подход может быть применен в ситуациях, где необходима высокая реактивность в реальном времени, такие как роботизированные производства, автоматизированные системы и системы поддержки решений. Он обеспечивает улучшение производительности без требования к переучиванию базовых моделей. Мы видим возможность дальнейшего использования A2C2 в системах, где задержка инференса является к
Abstract
To improve efficiency and temporal coherence, Vision-Language-Action (VLA)
models often predict action chunks; however, this action chunking harms
reactivity under inference delay and long horizons. We introduce Asynchronous
Action Chunk Correction (A2C2), which is a lightweight real-time chunk
correction head that runs every control step and adds a time-aware correction
to any off-the-shelf VLA's action chunk. The module combines the latest
observation, the predicted action from VLA (base action), a positional feature
that encodes the index of the base action within the chunk, and some features
from the base policy, then outputs a per-step correction. This preserves the
base model's competence while restoring closed-loop responsiveness. The
approach requires no retraining of the base policy and is orthogonal to
asynchronous execution schemes such as Real Time Chunking (RTC). On the dynamic
Kinetix task suite (12 tasks) and LIBERO Spatial, our method yields consistent
success rate improvements across increasing delays and execution horizons (+23%
point and +7% point respectively, compared to RTC), and also improves
robustness for long horizons even with zero injected delay. Since the
correction head is small and fast, there is minimal overhead compared to the
inference of large VLA models. These results indicate that A2C2 is an
effective, plug-in mechanism for deploying high-capacity chunking policies in
real-time control.