NinA: Normalizing Flows in Action. Training VLA Models with Normalizing Flows

2508.16845v1 cs.CV, cs.AI, cs.LG 2025-08-27

Авторы:

Denis Tarasov, Alexander Nikulin, Ilya Zisman, Albina Klepach, Nikita Lyubaykin, Andrei Polubarov, Alexander Derevyagin, Vladislav Kurenkov

Резюме на русском

## Контекст В последние годы видение-языко-действие (VLA) модели стали значительно продвинуть границы исследований в области обработки и анализа сложных визуальных сцен и текстовых инструкций. Одним из ключевых ограничений этих моделей является неэффективность декодирования действий, основанного на технологиях размытия (diffusion-based decoders). Эти технологии, хотя и эффективны в моделировании многомодальных дистрибуций действий, требуют многоэтапного процесса декодирования при интерпретации, что замедляет реакцию моделей в реальном времени. Это ограничивает применение VLA моделей в сценариях, требующих высокочастотного управления, таких как роботизированные системы, беспилотные транспортные средства и интеллектуальные дома. NinA (Normalizing Flows in Action) предлагает альтернативу этим технологиям, используя Normalizing Flows (NF) для одношагового декодирования действий. Этот подход имеет потенциал для решения проблемы неэффективности и улучшения возможностей VLA моделей в реальном мире. ## Метод NinA предлагает инновационное решение для проблемы медлительности декодирования действий в VLA моделях. Он заменяет диффузионный декодер на Normalizing Flow (NF), который включает в себя моделирование логарифмических плотностей распределений действий. Это позволяет осуществить одношаговое декодирование с использованием инверсии вычислений. Взаимодействие с VLM осуществляется на уровне представлений, где NF принимает контекстные представления от VLM и преобразует их в действия. Для тонкой настройки NinA используется архитектура FLOWER VLA, а обучение производится на бенчмарке LIBERO. Этот подход обеспечивает высокую эффективность и точность, сохраняя гибкость в работе с различными задачами. ## Результаты Проведенные эксперименты показали, что NinA эффективно совместим с FLOWER VLA, показывая схожую точность с диффузионным декодером при значительно более быстром декодировании. Использованные данные включают широкий спектр задач, таких как перемещение объектов, рукопожатия и взаимодействия с интерфейсом. Финальные результаты показали, что NinA не только сокращает время реакции, но и обеспечивает высокую точность в работе с нелинейными и многомодальными дистрибуциями действий. Эти результаты указывают на значительное потенциало NinA для использования в реальном времени в ситуациях, требующих высокочастотного управления. ## Значимость NinA предлагает новый подход к решению проблемы неэффективности декодирования действий в VLA моделях. Он может быть применен в сценариях, требующих высокочастотного управления, таких как роботизированные си

Abstract

Recent advances in Vision-Language-Action (VLA) models have established a two-component architecture, where a pre-trained Vision-Language Model (VLM) encodes visual observations and task descriptions, and an action decoder maps these representations to continuous actions. Diffusion models have been widely adopted as action decoders due to their ability to model complex, multimodal action distributions. However, they require multiple iterative denoising steps at inference time or downstream techniques to speed up sampling, limiting their practicality in real-world settings where high-frequency control is crucial. In this work, we present NinA (Normalizing Flows in Action), a fast and expressive alter- native to diffusion-based decoders for VLAs. NinA replaces the diffusion action decoder with a Normalizing Flow (NF) that enables one-shot sampling through an invertible transformation, significantly reducing inference time. We integrate NinA into the FLOWER VLA architecture and fine-tune on the LIBERO benchmark. Our experiments show that NinA matches the performance of its diffusion-based counterpart under the same training regime, while achieving substantially faster inference. These results suggest that NinA offers a promising path toward efficient, high-frequency VLA control without compromising performance.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

NinA: Normalizing Flows in Action. Training VLA Models with Normalizing Flows

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

PyroFocus: A Deep Learning Approach to Real-Time Wildfire Detection in Multispec...

ProtoEFNet: Dynamic Prototype Learning for Inherently Interpretable Ejection Fra...

GalaxyDiT: Efficient Video Generation with Guidance Alignment and Adaptive Proxy...

Divide, then Ground: Adapting Frame Selection to Query Types for Long-Form Video...

PSA: Pyramid Sparse Attention for Efficient Video Understanding and Generation

Навигация