F1: A Vision-Language-Action Model Bridging Understanding and Generation to Actions
2509.06951v2
cs.RO, cs.CV
2025-09-10
Авторы:
Qi Lv, Weijie Kong, Hao Li, Jia Zeng, Zherui Qiu, Delin Qu, Haoming Song, Qizhi Chen, Xiang Deng, Jiangmiao Pang
Резюме на русском
#### Контекст
В области эмбедидного ИИ, выполнение языковоориентированных задач в динамических визуальных окружениях остается центральной проблемой. Наиболее распространенные Vision-Language-Action (VLA) модели применяют реактивную модель, сопоставляющую состояния к действиям. Это приводит к краткосрочному мышлению и низкой устойчивости в нестабильных сценариях. Чтобы улучшить эти аспекты, необходимо выстраивать более продуманные механизмы, которые могут предсказать и адаптироваться к будущим состояниям. Цель данной работы — предложить модель, которая бы лучше справлялась с этими задачами за счет внедрения прогностической компоненты в процесс принятия решений.
#### Метод
Модель F1 основывается на Mixture-of-Transformers архитектуре, включающей модули для визуального восприятия, прогностической генерации и контроля. Основополагающим компонентом является механизм прогноза следующего состояния, который строит целевые визуальные сценарии для достижения классных целей. Эта технология превращает задачи управления в задачи прогностического инверсного динамического программирования. Для тренировки F1 использована большая выборка, содержащая более 330 тысяч траекторий из 136 задач. Это позволило развить устойчивые модели, которые могут обмениваться информацией между модулями и обладают трансферными способностями.
#### Результаты
Исследования проводились в реальных условиях и в симуляциях. Модель F1 показала значительное превосходство по отношению к существующим VLA моделям, повысив успешность выполнения задач и обеспечив лучшую общеуниверсальную производительность. Эксперименты подтверждают, что F1 может предсказывать более точные визуальные цели и реагировать на изменения в среде более эффективно, что делает ее более устойчивой и гибкой.
#### Значимость
F1 может применяться в различных областях, таких как автоматизация, робототехника и умные дома. Основные преимущества заключаются в улучшенной устойчивости, гибкости и общеуниверсальной модели, которая может быть адаптирована к разным ситуациям. Такая модель может существенно влиять на развитие области эмбедидного ИИ, облегчив решение задач, требующих взаимодействия с динамическими визуальными средами.
#### Выводы
Результаты показывают, что F1 является новой стандартной моделью для решения задач визуально-языковых действий в динамических окружениях. Будущие исследования будут сфокусированы на улучшении прогностической модели, увеличении ее скорости и снижении затрат ресурсов для еще более углубленного взаимодействия с реальным миром
Abstract
Executing language-conditioned tasks in dynamic visual environments remains a
central challenge in embodied AI. Existing Vision-Language-Action (VLA) models
predominantly adopt reactive state-to-action mappings, often leading to
short-sighted behaviors and poor robustness in dynamic scenes. In this paper,
we introduce F1, a pretrained VLA framework which integrates the visual
foresight generation into decision-making pipeline. F1 adopts a
Mixture-of-Transformer architecture with dedicated modules for perception,
foresight generation, and control, thereby bridging understanding, generation,
and actions. At its core, F1 employs a next-scale prediction mechanism to
synthesize goal-conditioned visual foresight as explicit planning targets. By
forecasting plausible future visual states, F1 reformulates action generation
as a foresight-guided inverse dynamics problem, enabling actions that
implicitly achieve visual goals. To endow F1 with robust and generalizable
capabilities, we propose a three-stage training recipe on an extensive dataset
comprising over 330k trajectories across 136 diverse tasks. This training
scheme enhances modular reasoning and equips the model with transferable visual
foresight, which is critical for complex and dynamic environments. Extensive
evaluations on real-world tasks and simulation benchmarks demonstrate F1
consistently outperforms existing approaches, achieving substantial gains in
both task success rate and generalization ability.
Ссылки и действия
Дополнительные ресурсы: