TRACE: Learning 3D Gaussian Physical Dynamics from Multi-view Videos

2508.09811v1 cs.CV, cs.AI, cs.CE, cs.LG, cs.RO 2025-08-15
Авторы:

Jinxi Li, Ziyang Song, Bo Yang

Резюме на русском

#### Контекст Объяснение целей исследований в области 3D-моделирования динамических сцен из видео при обработке изменений вызвано сложностью извлечения геометрии, видимости и физических параметров только из видео, без меток. Это ставит перед наукой цель развития моделей, не требующих меток и оперирующих только видеоданными. Моделирование сложных динамических сцен в 3D-пространстве важно для приложений в машинном зрении, виртуальной реальности и других технологиях. Недостаток существующих подходов в том, что они либо не могут охватить сложные физические модели, либо требуют дополнительных меток, что ограничивает их применение. #### Метод TRACE — это новая фреймворк, которая моделирует физические свойства динамических сцен с помощью физически обоснованных потерь и моделирования каждого трехмерного пикселя как отдельного частица со своими геометрическими параметрами (размер, ориентация). Основной инновацией является то, что TRACE динамически оценивает параметры трансляции и поворота для каждой частицы, что позволяет описывать ее движение в течение времени. Такой подход позволяет извлекать изображение и физическую информацию без дополнительных меток, так как сама модель физических параметров лежит в основе расчетов. #### Результаты TRACE проверена на трех существующих динамических датасетах, а также на новом синтетическом датасете, разработанном для проверки сложности. Использовались меры качества, такие как PSNR и SSIM, для оценки качества экстраполяции будущих кадров. Оказалось, что TRACE показывает наилучший результат в сравнении с другими моделями в задаче прогнозирования физических движений. Также было продемонстрировано, как посредством кластеризации физических параметров можно выделять различные объекты и их части в сцене. #### Значимость TRACE может применяться в различных областях технологий, включая системы распознавания движения, виртуальные и масштабируемые реалистичные симуляции, а также виртуальную реальность. Она предлагает высокую точность воспроизведения динамических сцен и позволяет извлекать физические параметры без дополнительных меток. Это делает ее привлекательной для приложений, требующих точной модели физического поведения объектов. #### Выводы TRACE демонстрирует мощь физически обоснованных подходов в обучении моделей движения 3D-сцен. Она открывает новые возможности для точного моделирования физики движения в различных приложениях. Будущие исследования могут сфокусироваться на улучшении точности моделирования и расширении ее применения в реальных сценах.

Abstract

In this paper, we aim to model 3D scene geometry, appearance, and physical information just from dynamic multi-view videos in the absence of any human labels. By leveraging physics-informed losses as soft constraints or integrating simple physics models into neural nets, existing works often fail to learn complex motion physics, or doing so requires additional labels such as object types or masks. We propose a new framework named TRACE to model the motion physics of complex dynamic 3D scenes. The key novelty of our method is that, by formulating each 3D point as a rigid particle with size and orientation in space, we directly learn a translation rotation dynamics system for each particle, explicitly estimating a complete set of physical parameters to govern the particle's motion over time. Extensive experiments on three existing dynamic datasets and one newly created challenging synthetic datasets demonstrate the extraordinary performance of our method over baselines in the task of future frame extrapolation. A nice property of our framework is that multiple objects or parts can be easily segmented just by clustering the learned physical parameters.

Ссылки и действия