LuxDiT: Lighting Estimation with Video Diffusion Transformer

2509.03680v1 cs.GR, cs.AI, cs.CV 2025-09-05

Авторы:

Ruofan Liang, Kai He, Zan Gojcic, Igor Gilitschenski, Sanja Fidler, Nandita Vijaykumar, Zian Wang

Резюме на русском

## Контекст Оценка сценической подсветки (lighting estimation) из отдельных изображений или видео является важной задачей в области компьютерного зрения и графики. Эта задача находит применение в различных прикладных областях, включая виртуальную реальность, игровой дизайн и видеоредактирование. Однако она сталкивается с значительными вызовами. Одним из основных ограничений является недостаток качественных данных с прямыми измерениями HDR-окружающей подсветки, которые сложно получить и имеют ограниченную разнообразие. Кроме того, существующие методы часто сталкиваются с проблемами, такими как нехватка локальных и глобальных контекстов, необходимость восстановить высокодинамические выходные данные и ограниченная точность. Наша мотивация заключается в развитии более точного и общегруппового подхода к этой задаче, который может обрабатывать изображения и видео, а также эффективно использовать генерируемые модели для повышения точности. ## Метод Мы предлагаем LuxDiT (Lighting Estimation with Video Diffusion Transformer), полностью данно-зависимый подход для оценки подсветки. Наша модель основывается на инновационной архитектуре Video Diffusion Transformer, которая развивает текущие достижения в области размытия для потоков видео. В рамках этого подхода мы учитываем формирование глобального контекста и интерпретацию нелокальных признаков. Для того, чтобы сделать модель более адаптивной к реальным сценам, мы тренируем ее на большом синтетическом наборе данных, содержащем различные окружения и светящиеся источники. Для повышения точности семантического выравнивания мы вводим технику низкоранговой адаптации на основе HDR-панорам, чтобы улучшить соответствие между входным изображением и сгенерированной HDR-картой окружения. Эта стратегия позволяет улучшить не только точность, но и реалистичность выходных данных. ## Результаты Мы проводили подробные эксперименты для оценки эффективности нашего подхода. Используя стандартные точные метрики для HDR-карт окружения, такие как PSNR, SSIM и LPIPS, мы сравнили LuxDiT с текущими лидерами в этой области. Результаты показали, что в наших экспериментах на реальных сценах наш метод превосходит существующие варианты как в качестве оценки, так и в зрительном восприятии. Мы также провели исследования по сравнению с генерируемыми моделями и продемонстрировали, что LuxDiT эффективно интерпретирует контекстный компонент и поддерживает высокую точность в локальных и глобальных задачах. Данные результаты подтверждают мощность и гибкость нашего подхода. ## Значимость Предложенный подход имеет широкое применение в различных прикладных областях. Он может быть использован в виртуальной реальности для повышения реали

Abstract

Estimating scene lighting from a single image or video remains a longstanding challenge in computer vision and graphics. Learning-based approaches are constrained by the scarcity of ground-truth HDR environment maps, which are expensive to capture and limited in diversity. While recent generative models offer strong priors for image synthesis, lighting estimation remains difficult due to its reliance on indirect visual cues, the need to infer global (non-local) context, and the recovery of high-dynamic-range outputs. We propose LuxDiT, a novel data-driven approach that fine-tunes a video diffusion transformer to generate HDR environment maps conditioned on visual input. Trained on a large synthetic dataset with diverse lighting conditions, our model learns to infer illumination from indirect visual cues and generalizes effectively to real-world scenes. To improve semantic alignment between the input and the predicted environment map, we introduce a low-rank adaptation finetuning strategy using a collected dataset of HDR panoramas. Our method produces accurate lighting predictions with realistic angular high-frequency details, outperforming existing state-of-the-art techniques in both quantitative and qualitative evaluations.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

LuxDiT: Lighting Estimation with Video Diffusion Transformer

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

A 3D Generation Framework from Cross Modality to Parameterized Primitive

3Dify: a Framework for Procedural 3D-CG Generation Assisted by LLMs Using MCP an...

Bridging Text and Video Generation: A Survey

SAEdit: Token-level control for continuous image editing via Sparse AutoEncoder

ReLumix: Extending Image Relighting to Video via Video Diffusion Models

Навигация