Focusing on What Matters: Object-Agent-centric Tokenization for Vision Language Action models
2509.23655v1
cs.RO, cs.AI, cs.CV, cs.LG
2025-10-01
Авторы:
Rokas Bendikas, Daniel Dijkman, Markus Peschl, Sanjay Haresh, Pietro Mazzaglia
Резюме на русском
## Контекст
Vision-Language-Action (VLA) модели являются ключевым подходом для обучения роботов к манипуляции на большой шкале, воспользовавшись большими предобученными Vision-Language-Models (VLM). Однако, приспособление VLMs для роботов сопряжено с необъятно высоким вычислительным затратом, который можно связать с текущими схемами токенизации визуальных данных. Это не только увеличивает время обучения, но и повышает потребление ресурсов. Наша мотивация заключается в создании метода, который позволит эффективно обучать VLA-модели, снижая требования к вычислительным ресурсам без ущерба для качества.
## Метод
Мы предлагаем Oat-VLA, метод Object-Agent-centric Tokenization for Vision-Language-Action models. Этот метод основывается на объектно-центрической представлении пространственной структуры сцены, а также включает в себя информацию о самом агенте. Наша техника решает проблему токенизации, акцентуясь на важных сценным объектам и агентским данным, что позволяет упростить структуру данных. Мы используем индуктивный признак уменьшения количества токенов до нескольких, но с минимумом потерь в качестве изображений.
## Результаты
Мы провели эксперименты на данных LIBERO suite и в реальных условиях сценариев "пик-энд-плейс". Наше решение Oat-VLA проявило себя как более эффективное, демонстрируя ускорение обучения на минимум в два раза по сравнению с OpenVLA. Кроме того, наши результаты показали лучшую точность в задачах "пик-энд-плейс", даже при существенно уменьшенном количестве токенов.
## Значимость
Метод Oat-VLA может быть применен в большинстве сценариев манипуляции роботов, позволяя экономить вычислительные ресурсы без потерь в качестве. Это может быть особенно полезно для роботов в реальных условиях, где уменьшение производительности может привести к более быстрым решениям и низким затратам.
## Выводы
Мы успешно представили Oat-VLA, метод, который предлагает новый подход к токенизации визуальных данных для VLA-моделей. Наши результаты показали, что можно эффективно уменьшить количество токенов без потерь в точности модели, что в будущем может увеличить скорость обучения и эффективность роботов в реальных сценариях. Наша работа открывает путь для дальнейших исследований в области эффективных VLA-моделей.
Abstract
Vision-Language-Action (VLA) models offer a pivotal approach to learning
robotic manipulation at scale by repurposing large pre-trained
Vision-Language-Models (VLM) to output robotic actions. However, adapting VLMs
for robotic domains comes with an unnecessarily high computational cost, which
we attribute to the tokenization scheme of visual inputs. In this work, we aim
to enable efficient VLA training by proposing Oat-VLA, an Object-Agent-centric
Tokenization for VLAs. Building on the insights of object-centric
representation learning, our method introduces an inductive bias towards scene
objects and the agent's own visual information. As a result, we find that
Oat-VLA can drastically reduce the number of visual tokens to just a few tokens
without sacrificing performance. We reveal that Oat-VLA converges at least
twice as fast as OpenVLA on the LIBERO suite, as well as outperform OpenVLA in
diverse real-world pick and place tasks.