What Happens Next? Anticipating Future Motion by Generating Point Trajectories

2509.21592v1 cs.CV, cs.AI, cs.LG 2025-09-30
Авторы:

Gabrijel Boduljak, Laurynas Karazija, Iro Laina, Christian Rupprecht, Andrea Vedaldi

Резюме на русском

## Контекст Исследование формулируется в рамках проблемы прогнозирования движения объектов в сценах, основываясь только на одном кадре изображения. Такой подход требует не только определения текущего состояния объектов, но и прогнозирования их дальнейших движений на основе логики сцены. Несмотря на развитие моделей генерации видео, текущие стандарты стремятся выводить подробные изображения, вместо того, чтобы напрямую прогнозировать движение в виде точечных траекторий. Поэтому, установлена мотивация для развития моделей, которые бы специализировались на построении траекторий, способствуя точности и универсальности прогнозирования движения в различных сценах. ## Метод Методология основывается на архитектуре моделей генерации видео, но расширяется для определения точечных траекторий. Обучение модели осуществляется с использованием данных симуляций, включающих различные физические сцены, например, падение предметов, тележки, роботов. Архитектура строится на основе современных моделей видеогенерации, но вместо вывода изображений, она прогнозирует точечные движущиеся точки. Это позволяет модели сфокусироваться на движении, объединяя в себе векторные описания пространственных движений. Модель также учитывает неопределенность в движении, обеспечивая более точные и разнообразные прогнозы. ## Результаты Использование симуляционных данных позволяет сравнить модель с предыдущими подходами. Было проведено тестирование на имитированных физических сценах, включающих различные типы движения и интеракций. Результаты показали, что модель предлагает более точные прогнозы в сравнении с использованием генерации видео. Также были продемонстрированы результаты на данных реальных физических сцен. Модель показала высокую точность в прогнозировании движения в различных условиях, в том числе при падении предметов или взаимодействии механических объектов. Она также имеет возможность предсказания вариантов движения, учитывая различные варианты поведения системы. ## Значимость Полученная модель может использоваться в различных областях, включая машинное зрение, робототехнику, графику и интерфейсы. У нее есть потенциал для улучшения динамических сцен, в которых требуется точное формирование прогнозов о движении. Что значительно отличает данную модель от предыдущих, так это её точность и способность работать с неопределенностью, что позволяет получать более разнообразные и универсальные прогнозы. Будущие исследования могут быть нацелены на расширение модели для работы с более сложными сценами, в том числе тех, которые включают

Abstract

We consider the problem of forecasting motion from a single image, i.e., predicting how objects in the world are likely to move, without the ability to observe other parameters such as the object velocities or the forces applied to them. We formulate this task as conditional generation of dense trajectory grids with a model that closely follows the architecture of modern video generators but outputs motion trajectories instead of pixels. This approach captures scene-wide dynamics and uncertainty, yielding more accurate and diverse predictions than prior regressors and generators. We extensively evaluate our method on simulated data, demonstrate its effectiveness on downstream applications such as robotics, and show promising accuracy on real-world intuitive physics datasets. Although recent state-of-the-art video generators are often regarded as world models, we show that they struggle with forecasting motion from a single image, even in simple physical scenarios such as falling blocks or mechanical object interactions, despite fine-tuning on such data. We show that this limitation arises from the overhead of generating pixels rather than directly modeling motion.

Ссылки и действия