LuxDiT: Lighting Estimation with Video Diffusion Transformer
2509.03680v1
cs.GR, cs.AI, cs.CV
2025-09-05
Авторы:
Ruofan Liang, Kai He, Zan Gojcic, Igor Gilitschenski, Sanja Fidler, Nandita Vijaykumar, Zian Wang
Резюме на русском
## Контекст
Оценка сценической подсветки (lighting estimation) из отдельных изображений или видео является важной задачей в области компьютерного зрения и графики. Эта задача находит применение в различных прикладных областях, включая виртуальную реальность, игровой дизайн и видеоредактирование. Однако она сталкивается с значительными вызовами. Одним из основных ограничений является недостаток качественных данных с прямыми измерениями HDR-окружающей подсветки, которые сложно получить и имеют ограниченную разнообразие. Кроме того, существующие методы часто сталкиваются с проблемами, такими как нехватка локальных и глобальных контекстов, необходимость восстановить высокодинамические выходные данные и ограниченная точность. Наша мотивация заключается в развитии более точного и общегруппового подхода к этой задаче, который может обрабатывать изображения и видео, а также эффективно использовать генерируемые модели для повышения точности.
## Метод
Мы предлагаем LuxDiT (Lighting Estimation with Video Diffusion Transformer), полностью данно-зависимый подход для оценки подсветки. Наша модель основывается на инновационной архитектуре Video Diffusion Transformer, которая развивает текущие достижения в области размытия для потоков видео. В рамках этого подхода мы учитываем формирование глобального контекста и интерпретацию нелокальных признаков. Для того, чтобы сделать модель более адаптивной к реальным сценам, мы тренируем ее на большом синтетическом наборе данных, содержащем различные окружения и светящиеся источники. Для повышения точности семантического выравнивания мы вводим технику низкоранговой адаптации на основе HDR-панорам, чтобы улучшить соответствие между входным изображением и сгенерированной HDR-картой окружения. Эта стратегия позволяет улучшить не только точность, но и реалистичность выходных данных.
## Результаты
Мы проводили подробные эксперименты для оценки эффективности нашего подхода. Используя стандартные точные метрики для HDR-карт окружения, такие как PSNR, SSIM и LPIPS, мы сравнили LuxDiT с текущими лидерами в этой области. Результаты показали, что в наших экспериментах на реальных сценах наш метод превосходит существующие варианты как в качестве оценки, так и в зрительном восприятии. Мы также провели исследования по сравнению с генерируемыми моделями и продемонстрировали, что LuxDiT эффективно интерпретирует контекстный компонент и поддерживает высокую точность в локальных и глобальных задачах. Данные результаты подтверждают мощность и гибкость нашего подхода.
## Значимость
Предложенный подход имеет широкое применение в различных прикладных областях. Он может быть использован в виртуальной реальности для повышения реали
Abstract
Estimating scene lighting from a single image or video remains a longstanding
challenge in computer vision and graphics. Learning-based approaches are
constrained by the scarcity of ground-truth HDR environment maps, which are
expensive to capture and limited in diversity. While recent generative models
offer strong priors for image synthesis, lighting estimation remains difficult
due to its reliance on indirect visual cues, the need to infer global
(non-local) context, and the recovery of high-dynamic-range outputs. We propose
LuxDiT, a novel data-driven approach that fine-tunes a video diffusion
transformer to generate HDR environment maps conditioned on visual input.
Trained on a large synthetic dataset with diverse lighting conditions, our
model learns to infer illumination from indirect visual cues and generalizes
effectively to real-world scenes. To improve semantic alignment between the
input and the predicted environment map, we introduce a low-rank adaptation
finetuning strategy using a collected dataset of HDR panoramas. Our method
produces accurate lighting predictions with realistic angular high-frequency
details, outperforming existing state-of-the-art techniques in both
quantitative and qualitative evaluations.
Ссылки и действия
Дополнительные ресурсы: