Spatiotemporally Consistent Indoor Lighting Estimation with Diffusion Priors

2508.08384v1 cs.GR, cs.AI, cs.CV 2025-08-14

Авторы:

Mutian Tong, Rundi Wu, Changxi Zheng

Резюме на русском

#### Контекст Оценка внутреннего освещения из одного изображения или видео представляет собой сложную задачу, особенно когда условия освещения в сцене изменяются с параллелизмом и временем. Эта проблема важна для различных приложений, таких как виртуальная реальность, анимация, интерьерная дизайнерская практика. Несмотря на развитие нейросетевых подходов, оценка освещения внутренних пространств остается сложной из-за отсутствия достаточного количества представлений света для обучения. Мы предлагаем метод, который оценивает свет, пронизывающий конкретное время и место, в виде непрерывного поля света, которое может описывать пространственно-временные изменения. #### Метод Мы предлагаем способ оценки освещения внутренних пространств с помощью квази-константного света, разделенного на непрерывное поле по времени и пространству. Метод основывается на применении 2D-размытия для оптимизации света, представленного в виде сети нейронных сетей MLP. Для обеспечения нулевого обучения к сценам в жизненном окружении мы применяем подготовленный к большому объему данных модель размытия изображений, чтобы предсказать освещение в разных местах, используя несколько шаров в виде цельных центров света. Мы осуществляем оценку наших результатов в сценах внутренних пространств из изображений и видео, сравнивая с текущими способами, и получаем значительные улучшения, особенно в сфере непрерывности времени и пространства. #### Результаты Мы проводили эксперименты на различных видеосценах внутренних пространств, которые представляют собой сложные сеточные значения. Наш метод показал значительное превосходство по сравнению с другими подходами в том числе по измерениям качества и точности оценки света в пространстве и времени. Мы демонстрируем то, как наш метод предсказывает освещение в различных расположениях в реальных сценах внутренних пространств, которое представляет собой задачу в жизненных условиях. #### Значимость Метод может быть использован в сфере виртуальной реальности, видеоредактирования, а также в дизайне интерьера. Он демонстрирует способность к точной, специальной оценке освещения в реальных видео, что значительно расширяет потенциал в пользовательских приложениях. Мы также показываем, что наш подход может быть применен в качестве важного инструмента для будущих исследований в области интерьерного освещения. #### Выводы Мы предложили метод, который оценивает пространственно-временное освещение внутренних пространств с помощью непрерывного поля света, основанного на размытии. Мы демонстрируем улучшения в подходе к задаче об оценке освещения в реальных видео, что демонстрирует больш

Abstract

Indoor lighting estimation from a single image or video remains a challenge due to its highly ill-posed nature, especially when the lighting condition of the scene varies spatially and temporally. We propose a method that estimates from an input video a continuous light field describing the spatiotemporally varying lighting of the scene. We leverage 2D diffusion priors for optimizing such light field represented as a MLP. To enable zero-shot generalization to in-the-wild scenes, we fine-tune a pre-trained image diffusion model to predict lighting at multiple locations by jointly inpainting multiple chrome balls as light probes. We evaluate our method on indoor lighting estimation from a single image or video and show superior performance over compared baselines. Most importantly, we highlight results on spatiotemporally consistent lighting estimation from in-the-wild videos, which is rarely demonstrated in previous works.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Spatiotemporally Consistent Indoor Lighting Estimation with Diffusion Priors

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

A 3D Generation Framework from Cross Modality to Parameterized Primitive

3Dify: a Framework for Procedural 3D-CG Generation Assisted by LLMs Using MCP an...

Bridging Text and Video Generation: A Survey

SAEdit: Token-level control for continuous image editing via Sparse AutoEncoder

ReLumix: Extending Image Relighting to Video via Video Diffusion Models

Навигация