DiffPhysCam: Differentiable Physics-Based Camera Simulation for Inverse Rendering and Embodied AI

2508.08831v1 cs.GR, cs.CV, cs.RO 2025-08-14
Авторы:

Bo-Hsun Chen, Nevindu M. Batagoda, Dan Negrut

Резюме на русском

#### Контекст Рост интереса к системам с автономным визуальным воздействием, таким как роботы и виртуальная реальность, поднимает сложности синтеза реалистичных визуальных данных. Эти компоненты значительно влияют на обучение моделей визуальных сетей и визуально-моторного обучения. Однако существующие виртуальные камеры имеют ограниченный контроль над внутренними параметрами, плохо моделируют оптические артефакты, и нередко не поддерживают калибровку с использованием реальных данных. Это снижает эффективность симуляций и снижает доверие к технологиям сим-то-реал. DiffPhysCam предлагает решение этих проблем, улучшая реалистичность и точность синтеза визуальных данных. #### Метод DiffPhysCam — это разработанный метод, основанный на дифференцируемых принципах физики, предназначенный для синтеза искусственных визуальных данных. Он включает в себя несколько этапов: начиная от построения синтетических изображений до инверсного рендеринга для восстановления меша и объектных материалов. Оптические эффекты, такие как рассеивание и defocus blur, учитываются через дифференцируемые модели. Кроме того, DiffPhysCam поддерживает вычисления градиентов для оптимизации целевых переменных, таких как глубина или материальные характеристики. Эта архитектура позволяет ему хорошо справляться с задачами, требующими точного воспроизведения затухания и гауссовского размытия. #### Результаты В ходе экспериментов DiffPhysCam показал высокую точность в синтезе изображений, особенно в задачах с фокусировкой и рассеиванием. Он был успешно применен для реконструкции трёхмерных сцен с помощью инверсного рендеринга и для тренировки роботов в симуляциях. Например, робот-грузовик смог успешно перемещаться по симулируемой обстановке, используя изображения, сгенерированные DiffPhysCam. Эти результаты показали, что DiffPhysCam превосходит существующие решения в области визуальных симуляций. #### Значимость DiffPhysCam может быть применён в различных областях, включая робототехнику, виртуальную реальность и цифровые двойники. Он предоставляет улучшенный контроль над камерой и моделями оптических эффектов, что обеспечивает более точное воспроизведение реальных условий. Это позволяет значительно повысить эффективность тестов и обучения визуальных моделей в симуляционных средах. Будущие работы будут сфокусированы на расширении функциональных возможностей DiffPhysCam и его интеграции с более сложными системами симуляций. #### Выводы DiffPhysCam представляет собой значительный шаг в области синтеза и моделирования визуальных данных. О

Abstract

We introduce DiffPhysCam, a differentiable camera simulator designed to support robotics and embodied AI applications by enabling gradient-based optimization in visual perception pipelines. Generating synthetic images that closely mimic those from real cameras is essential for training visual models and enabling end-to-end visuomotor learning. Moreover, differentiable rendering allows inverse reconstruction of real-world scenes as digital twins, facilitating simulation-based robotics training. However, existing virtual cameras offer limited control over intrinsic settings, poorly capture optical artifacts, and lack tunable calibration parameters -- hindering sim-to-real transfer. DiffPhysCam addresses these limitations through a multi-stage pipeline that provides fine-grained control over camera settings, models key optical effects such as defocus blur, and supports calibration with real-world data. It enables both forward rendering for image synthesis and inverse rendering for 3D scene reconstruction, including mesh and material texture optimization. We show that DiffPhysCam enhances robotic perception performance in synthetic image tasks. As an illustrative example, we create a digital twin of a real-world scene using inverse rendering, simulate it in a multi-physics environment, and demonstrate navigation of an autonomous ground vehicle using images generated by DiffPhysCam.

Ссылки и действия