NinA: Normalizing Flows in Action. Training VLA Models with Normalizing Flows
2508.16845v1
cs.CV, cs.AI, cs.LG
2025-08-27
Авторы:
Denis Tarasov, Alexander Nikulin, Ilya Zisman, Albina Klepach, Nikita Lyubaykin, Andrei Polubarov, Alexander Derevyagin, Vladislav Kurenkov
Резюме на русском
## Контекст
В последние годы видение-языко-действие (VLA) модели стали значительно продвинуть границы исследований в области обработки и анализа сложных визуальных сцен и текстовых инструкций. Одним из ключевых ограничений этих моделей является неэффективность декодирования действий, основанного на технологиях размытия (diffusion-based decoders). Эти технологии, хотя и эффективны в моделировании многомодальных дистрибуций действий, требуют многоэтапного процесса декодирования при интерпретации, что замедляет реакцию моделей в реальном времени. Это ограничивает применение VLA моделей в сценариях, требующих высокочастотного управления, таких как роботизированные системы, беспилотные транспортные средства и интеллектуальные дома. NinA (Normalizing Flows in Action) предлагает альтернативу этим технологиям, используя Normalizing Flows (NF) для одношагового декодирования действий. Этот подход имеет потенциал для решения проблемы неэффективности и улучшения возможностей VLA моделей в реальном мире.
## Метод
NinA предлагает инновационное решение для проблемы медлительности декодирования действий в VLA моделях. Он заменяет диффузионный декодер на Normalizing Flow (NF), который включает в себя моделирование логарифмических плотностей распределений действий. Это позволяет осуществить одношаговое декодирование с использованием инверсии вычислений. Взаимодействие с VLM осуществляется на уровне представлений, где NF принимает контекстные представления от VLM и преобразует их в действия. Для тонкой настройки NinA используется архитектура FLOWER VLA, а обучение производится на бенчмарке LIBERO. Этот подход обеспечивает высокую эффективность и точность, сохраняя гибкость в работе с различными задачами.
## Результаты
Проведенные эксперименты показали, что NinA эффективно совместим с FLOWER VLA, показывая схожую точность с диффузионным декодером при значительно более быстром декодировании. Использованные данные включают широкий спектр задач, таких как перемещение объектов, рукопожатия и взаимодействия с интерфейсом. Финальные результаты показали, что NinA не только сокращает время реакции, но и обеспечивает высокую точность в работе с нелинейными и многомодальными дистрибуциями действий. Эти результаты указывают на значительное потенциало NinA для использования в реальном времени в ситуациях, требующих высокочастотного управления.
## Значимость
NinA предлагает новый подход к решению проблемы неэффективности декодирования действий в VLA моделях. Он может быть применен в сценариях, требующих высокочастотного управления, таких как роботизированные си
Abstract
Recent advances in Vision-Language-Action (VLA) models have established a
two-component architecture, where a pre-trained Vision-Language Model (VLM)
encodes visual observations and task descriptions, and an action decoder maps
these representations to continuous actions. Diffusion models have been widely
adopted as action decoders due to their ability to model complex, multimodal
action distributions. However, they require multiple iterative denoising steps
at inference time or downstream techniques to speed up sampling, limiting their
practicality in real-world settings where high-frequency control is crucial. In
this work, we present NinA (Normalizing Flows in Action), a fast and expressive
alter- native to diffusion-based decoders for VLAs. NinA replaces the diffusion
action decoder with a Normalizing Flow (NF) that enables one-shot sampling
through an invertible transformation, significantly reducing inference time. We
integrate NinA into the FLOWER VLA architecture and fine-tune on the LIBERO
benchmark. Our experiments show that NinA matches the performance of its
diffusion-based counterpart under the same training regime, while achieving
substantially faster inference. These results suggest that NinA offers a
promising path toward efficient, high-frequency VLA control without
compromising performance.
Ссылки и действия
Дополнительные ресурсы: