Neural Atlas Graphs for Dynamic Scene Decomposition and Editing

2509.16336v1 cs.GR, cs.CV, cs.LG 2025-09-24
Авторы:

Jan Philipp Schneider, Pratik Singh Bisht, Ilya Chugunov, Andreas Kolb, Michael Moeller, Felix Heide

Резюме на русском

## Контекст Основной мотивацией для развития методов сценарного разбора в динамических сценах является необходимость создания гибких и высококачественных моделей для анализа и редактирования сложных сцен, вовлеченных в автономное вождение или творческое редактирование. Несмотря на успех некоторых подходов, таких как нейроатласы, которые представляют сцены в виде двух деформируемых слоев (фоновый и передний), эти модели становятся неэффективными при поперекложении и взаимодействии объектов. Альтернативные подходы, основанные на графах сцены, позволяют создавать 3D-спектр предметов с использованием масок и боксингов, но выделение и редактирование этих моделей остается трудоемким и неоднозначным. Мы предлагаем метод Neural Atlas Graphs (NAGs), который объединяет преимущества нейроатласов и графов сцены, обеспечивая высокую точность, редактируемость и эффективность в обработке и редактировании динамических сцен. ## Метод Наша архитектура NAGs основана на нейроатласах, которые представляют каждый граф-узел как представление видящегося слоя в 2D. Каждый узел может находиться в произвольной позиции и выглядеть в зависимости от угла взгляда, что позволяет гибко организовывать трехмерные связи. Мы реализуем это с использованием методики обучения с подкреплением, чтобы обеспечить надёжный поиск и привязку объектов в сцене. Наша модель обладает высокой точностью в разборе сцен, что даёт возможность визуального редактирования в высоком разрешении, включая изменение фонов, позиций и визуальной аппаратуры. Мы также используем внешние проверки качества работы на данных свободного вождения и видео-анализа, чтобы продемонстрировать эффективность NAGs. ## Результаты Мы проверяли NAGs на двух различных датасетах: Waymo Open Dataset для автономных сцен и DAVIS для более общих видео-сцен. На Waymo, наш метод показал значительный прогресс по сравнению с предыдущими подходами, демонстрируя повышение PSNR на 5 дБ. На DAVIS, мы получили результаты, превосходящие современные методы маттинга и видео-редактирования, с увеличением PSNR на 7 дБ. Наши эксперименты показывают, что NAGs эффективно работают в широком диапазоне сцен, включая сложные динамические сцены с множеством объектов и взаимодействий. ## Значимость Наши результаты открывают путь для широких применений, включая автономное вождение, редактирование видео и виртуальную реальность. Мы показали, что NAGs обеспечивают высокое качество редактирования в 3D-мерности с высоким разрешением, что делает их привлекательными для приложений, требующих интерактивно

Abstract

Learning editable high-resolution scene representations for dynamic scenes is an open problem with applications across the domains from autonomous driving to creative editing - the most successful approaches today make a trade-off between editability and supporting scene complexity: neural atlases represent dynamic scenes as two deforming image layers, foreground and background, which are editable in 2D, but break down when multiple objects occlude and interact. In contrast, scene graph models make use of annotated data such as masks and bounding boxes from autonomous-driving datasets to capture complex 3D spatial relationships, but their implicit volumetric node representations are challenging to edit view-consistently. We propose Neural Atlas Graphs (NAGs), a hybrid high-resolution scene representation, where every graph node is a view-dependent neural atlas, facilitating both 2D appearance editing and 3D ordering and positioning of scene elements. Fit at test-time, NAGs achieve state-of-the-art quantitative results on the Waymo Open Dataset - by 5 dB PSNR increase compared to existing methods - and make environmental editing possible in high resolution and visual quality - creating counterfactual driving scenarios with new backgrounds and edited vehicle appearance. We find that the method also generalizes beyond driving scenes and compares favorably - by more than 7 dB in PSNR - to recent matting and video editing baselines on the DAVIS video dataset with a diverse set of human and animal-centric scenes.

Ссылки и действия