Focusing on What Matters: Object-Agent-centric Tokenization for Vision Language Action models

2509.23655v1 cs.RO, cs.AI, cs.CV, cs.LG 2025-10-01
Авторы:

Rokas Bendikas, Daniel Dijkman, Markus Peschl, Sanjay Haresh, Pietro Mazzaglia

Резюме на русском

## Контекст Vision-Language-Action (VLA) модели являются ключевым подходом для обучения роботов к манипуляции на большой шкале, воспользовавшись большими предобученными Vision-Language-Models (VLM). Однако, приспособление VLMs для роботов сопряжено с необъятно высоким вычислительным затратом, который можно связать с текущими схемами токенизации визуальных данных. Это не только увеличивает время обучения, но и повышает потребление ресурсов. Наша мотивация заключается в создании метода, который позволит эффективно обучать VLA-модели, снижая требования к вычислительным ресурсам без ущерба для качества. ## Метод Мы предлагаем Oat-VLA, метод Object-Agent-centric Tokenization for Vision-Language-Action models. Этот метод основывается на объектно-центрической представлении пространственной структуры сцены, а также включает в себя информацию о самом агенте. Наша техника решает проблему токенизации, акцентуясь на важных сценным объектам и агентским данным, что позволяет упростить структуру данных. Мы используем индуктивный признак уменьшения количества токенов до нескольких, но с минимумом потерь в качестве изображений. ## Результаты Мы провели эксперименты на данных LIBERO suite и в реальных условиях сценариев "пик-энд-плейс". Наше решение Oat-VLA проявило себя как более эффективное, демонстрируя ускорение обучения на минимум в два раза по сравнению с OpenVLA. Кроме того, наши результаты показали лучшую точность в задачах "пик-энд-плейс", даже при существенно уменьшенном количестве токенов. ## Значимость Метод Oat-VLA может быть применен в большинстве сценариев манипуляции роботов, позволяя экономить вычислительные ресурсы без потерь в качестве. Это может быть особенно полезно для роботов в реальных условиях, где уменьшение производительности может привести к более быстрым решениям и низким затратам. ## Выводы Мы успешно представили Oat-VLA, метод, который предлагает новый подход к токенизации визуальных данных для VLA-моделей. Наши результаты показали, что можно эффективно уменьшить количество токенов без потерь в точности модели, что в будущем может увеличить скорость обучения и эффективность роботов в реальных сценариях. Наша работа открывает путь для дальнейших исследований в области эффективных VLA-моделей.

Abstract

Vision-Language-Action (VLA) models offer a pivotal approach to learning robotic manipulation at scale by repurposing large pre-trained Vision-Language-Models (VLM) to output robotic actions. However, adapting VLMs for robotic domains comes with an unnecessarily high computational cost, which we attribute to the tokenization scheme of visual inputs. In this work, we aim to enable efficient VLA training by proposing Oat-VLA, an Object-Agent-centric Tokenization for VLAs. Building on the insights of object-centric representation learning, our method introduces an inductive bias towards scene objects and the agent's own visual information. As a result, we find that Oat-VLA can drastically reduce the number of visual tokens to just a few tokens without sacrificing performance. We reveal that Oat-VLA converges at least twice as fast as OpenVLA on the LIBERO suite, as well as outperform OpenVLA in diverse real-world pick and place tasks.

Ссылки и действия