Leave No Observation Behind: Real-time Correction for VLA Action Chunks

2509.23224v1 cs.RO, cs.AI, cs.CV, cs.SY, eess.SY 2025-10-01
Авторы:

Kohei Sendai, Maxime Alvarez, Tatsuya Matsushima, Yutaka Matsuo, Yusuke Iwasawa

Резюме на русском

#### Контекст В многих приложениях, таких как робототехника, автоматизированные системы и искусственный интеллект, важно обеспечивать высокую эффективность и реактивность. Одним из ключевых подходов является использование Vision-Language-Action (VLA) моделей, которые позволяют объединять визуальные сигналы, языковые команды и действия в систематические решения. Однако существуют проблемы, связанные с высоким задержанием при инференсе и проблемами с корректным принятием решений на больших горизонтах времени. Это приводит к потере точности и реактивности в реальном времени. Данная статья фокусируется на улучшении реакции VLA-моделей в ситуациях, где задержка инференса и длинные горизонты времени становятся критичными. Мы предлагаем Asynchronous Action Chunk Correction (A2C2) — легковесное решение, которое добавляет временно-активные коррекции к базовым действиям модели. #### Метод Методология A2C2 основывается на асинхронном подходе к коррекции action chunks в реальном времени. Решение состоит в том, чтобы каждый шаг управления добавлял в базовую модель VLA дополнительный корректирующий модуль. Этот модуль принимает в качестве входных данных последние наблюдения, базовое действие, которое было получено от VLA-модели, позиционную особенность, которая определяет индекс действия внутри чанка, а также некоторые другие фичи из базовой политики. Ответ модуля — это зависимость времени, которая исправляет базовый вывод без необходимости переучивания всей системы. Мы используем свёрточные нейронные сети для выполнения коррекции, чтобы обеспечить высокую скорость и эффективность. #### Результаты Мы проверили нашу модель на двух наборах данных: Kinetix Dynamic Task Suite (12 задач) и LIBERO Spatial. Проводили эксперименты, меняя уровни задержки инференса и горизонт выполнения. Результаты показали, что A2C2 улучшает успешность задач на +23% в случае увеличения задержки и на +7% при больших горизонтах выполнения, в сравнении с Real-Time Chunking (RTC). Добавленная коррекция повышает реактивность и уменьшает ошибки в реальном времени, не требуя полного переучивания модели. Анализ производительности показал, что дополнительные ресурсы, требуемые для A2C2, незначительны в сравнении с большими VLA-моделями. #### Значимость Предложенный подход может быть применен в ситуациях, где необходима высокая реактивность в реальном времени, такие как роботизированные производства, автоматизированные системы и системы поддержки решений. Он обеспечивает улучшение производительности без требования к переучиванию базовых моделей. Мы видим возможность дальнейшего использования A2C2 в системах, где задержка инференса является к

Abstract

To improve efficiency and temporal coherence, Vision-Language-Action (VLA) models often predict action chunks; however, this action chunking harms reactivity under inference delay and long horizons. We introduce Asynchronous Action Chunk Correction (A2C2), which is a lightweight real-time chunk correction head that runs every control step and adds a time-aware correction to any off-the-shelf VLA's action chunk. The module combines the latest observation, the predicted action from VLA (base action), a positional feature that encodes the index of the base action within the chunk, and some features from the base policy, then outputs a per-step correction. This preserves the base model's competence while restoring closed-loop responsiveness. The approach requires no retraining of the base policy and is orthogonal to asynchronous execution schemes such as Real Time Chunking (RTC). On the dynamic Kinetix task suite (12 tasks) and LIBERO Spatial, our method yields consistent success rate improvements across increasing delays and execution horizons (+23% point and +7% point respectively, compared to RTC), and also improves robustness for long horizons even with zero injected delay. Since the correction head is small and fast, there is minimal overhead compared to the inference of large VLA models. These results indicate that A2C2 is an effective, plug-in mechanism for deploying high-capacity chunking policies in real-time control.

Ссылки и действия

Связанные статьи

Autonomous Navigation of Cloud-Controlled Quadcopters in Confined Spaces Using M...

#### Контекст Автоматизированная навигация внештатных дронов в закрытых пространствах представляет собой важную область...

2025-08-13