DiffPhysCam: Differentiable Physics-Based Camera Simulation for Inverse Rendering and Embodied AI
2508.08831v1
cs.GR, cs.CV, cs.RO
2025-08-14
Авторы:
Bo-Hsun Chen, Nevindu M. Batagoda, Dan Negrut
Резюме на русском
#### Контекст
Рост интереса к системам с автономным визуальным воздействием, таким как роботы и виртуальная реальность, поднимает сложности синтеза реалистичных визуальных данных. Эти компоненты значительно влияют на обучение моделей визуальных сетей и визуально-моторного обучения. Однако существующие виртуальные камеры имеют ограниченный контроль над внутренними параметрами, плохо моделируют оптические артефакты, и нередко не поддерживают калибровку с использованием реальных данных. Это снижает эффективность симуляций и снижает доверие к технологиям сим-то-реал. DiffPhysCam предлагает решение этих проблем, улучшая реалистичность и точность синтеза визуальных данных.
#### Метод
DiffPhysCam — это разработанный метод, основанный на дифференцируемых принципах физики, предназначенный для синтеза искусственных визуальных данных. Он включает в себя несколько этапов: начиная от построения синтетических изображений до инверсного рендеринга для восстановления меша и объектных материалов. Оптические эффекты, такие как рассеивание и defocus blur, учитываются через дифференцируемые модели. Кроме того, DiffPhysCam поддерживает вычисления градиентов для оптимизации целевых переменных, таких как глубина или материальные характеристики. Эта архитектура позволяет ему хорошо справляться с задачами, требующими точного воспроизведения затухания и гауссовского размытия.
#### Результаты
В ходе экспериментов DiffPhysCam показал высокую точность в синтезе изображений, особенно в задачах с фокусировкой и рассеиванием. Он был успешно применен для реконструкции трёхмерных сцен с помощью инверсного рендеринга и для тренировки роботов в симуляциях. Например, робот-грузовик смог успешно перемещаться по симулируемой обстановке, используя изображения, сгенерированные DiffPhysCam. Эти результаты показали, что DiffPhysCam превосходит существующие решения в области визуальных симуляций.
#### Значимость
DiffPhysCam может быть применён в различных областях, включая робототехнику, виртуальную реальность и цифровые двойники. Он предоставляет улучшенный контроль над камерой и моделями оптических эффектов, что обеспечивает более точное воспроизведение реальных условий. Это позволяет значительно повысить эффективность тестов и обучения визуальных моделей в симуляционных средах. Будущие работы будут сфокусированы на расширении функциональных возможностей DiffPhysCam и его интеграции с более сложными системами симуляций.
#### Выводы
DiffPhysCam представляет собой значительный шаг в области синтеза и моделирования визуальных данных. О
Abstract
We introduce DiffPhysCam, a differentiable camera simulator designed to
support robotics and embodied AI applications by enabling gradient-based
optimization in visual perception pipelines. Generating synthetic images that
closely mimic those from real cameras is essential for training visual models
and enabling end-to-end visuomotor learning. Moreover, differentiable rendering
allows inverse reconstruction of real-world scenes as digital twins,
facilitating simulation-based robotics training. However, existing virtual
cameras offer limited control over intrinsic settings, poorly capture optical
artifacts, and lack tunable calibration parameters -- hindering sim-to-real
transfer. DiffPhysCam addresses these limitations through a multi-stage
pipeline that provides fine-grained control over camera settings, models key
optical effects such as defocus blur, and supports calibration with real-world
data. It enables both forward rendering for image synthesis and inverse
rendering for 3D scene reconstruction, including mesh and material texture
optimization. We show that DiffPhysCam enhances robotic perception performance
in synthetic image tasks. As an illustrative example, we create a digital twin
of a real-world scene using inverse rendering, simulate it in a multi-physics
environment, and demonstrate navigation of an autonomous ground vehicle using
images generated by DiffPhysCam.
Ссылки и действия
Дополнительные ресурсы: