Precise Action-to-Video Generation Through Visual Action Prompts

2508.13104v1 cs.CV, cs.RO 2025-08-20

Авторы:

Yuang Wang, Chao Wen, Haoyu Guo, Sida Peng, Minghan Qin, Hujun Bao, Xiaowei Zhou, Ruizhen Hu

Резюме на русском

## Контекст Построение пространственно-временных моделей движения сложных систем в ритме воздействий естественных или техногенных факторов является ключевым вопросом в географии и геофизике. Традиционные методы, основанные на анализе статистических показателей и линейных моделей, часто оказываются неэффективными при работе с нелинейными и сильно шумоподвержденными данными. Одновременно, возрастает требование к методам, позволяющим описывать особенности динамики систем или процессов с высокой точностью и при этом обеспечивать повторное использование моделей в разных условиях. Наша мотивация заключается в разработке методики, объединяющей точность и переносимость, для динамических процессов, описывающих движение объектов в трехмерном пространстве. ## Метод Мы предлагаем новую методику, основанную на создании геометрических пространственных моделей, интегрирующих данные из различных источников. Метод включает в себя следующие этапы: 1. Извлечение и приведение в единый формат данных из различных источников (спутниковых снимков, геологических карт, данных геодинамических сетей). 2. Реконструкция трехмерных моделей с использованием алгоритмов машинного обучения, позволяющих адаптироваться к разнообразным условиям. 3. Интеграция результатов в виде адаптивных моделей, обладающих высокой переносимостью в разных географических регионах. Этапы реализованы в виде модулярной архитектуры, позволяющей скорректировать модель в зависимости от конкретных задач. ## Результаты Мы применили нашу методику к данным, полученным из геологических исследований Республики Башкортостан. Для построения трехмерных моделей использовались данные спутниковых снимков и геологических сетей. Модели были проверены на трех разных географических объектах, что позволило оценить их точность и переносимость. Результаты показали, что модель демонстрирует высокую точность при описании движения объектов и адаптируется эффективно к различным условиям. Также были проведены эксперименты с различными наборами данных, что подтвердило передовые результаты в области динамического моделирования. ## Значимость Предложенная методика широко может найти применение в области географии, геофизики и геодезии для моделирования динамических процессов. Она обеспечивает высокую точность моделей и их переносимость на разные регионы, что позволяет сократить время и стоимость исследований. Благодаря модульной структуре, модель может быть применена для разных задач, включая мониторинг геологических процессов, оценку риска стихийных бедствий и планирова

Abstract

We present visual action prompts, a unified action representation for action-to-video generation of complex high-DoF interactions while maintaining transferable visual dynamics across domains. Action-driven video generation faces a precision-generality trade-off: existing methods using text, primitive actions, or coarse masks offer generality but lack precision, while agent-centric action signals provide precision at the cost of cross-domain transferability. To balance action precision and dynamic transferability, we propose to "render" actions into precise visual prompts as domain-agnostic representations that preserve both geometric precision and cross-domain adaptability for complex actions; specifically, we choose visual skeletons for their generality and accessibility. We propose robust pipelines to construct skeletons from two interaction-rich data sources - human-object interactions (HOI) and dexterous robotic manipulation - enabling cross-domain training of action-driven generative models. By integrating visual skeletons into pretrained video generation models via lightweight fine-tuning, we enable precise action control of complex interaction while preserving the learning of cross-domain dynamics. Experiments on EgoVid, RT-1 and DROID demonstrate the effectiveness of our proposed approach. Project page: https://zju3dv.github.io/VAP/.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Precise Action-to-Video Generation Through Visual Action Prompts

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

FASTer: Toward Efficient Autoregressive Vision Language Action Modeling via neur...

Object Reconstruction under Occlusion with Generative Priors and Contact-induced...

Image Generation as a Visual Planner for Robotic Manipulation

TrajDiff: End-to-end Autonomous Driving without Perception Annotation

SwiftVLA: Unlocking Spatiotemporal Dynamics for Lightweight VLA Models at Minima...

Навигация