HiMat: DiT-based Ultra-High Resolution SVBRDF Generation
2508.07011v2
cs.CV, cs.GR
2025-08-13
Авторы:
Zixiong Wang, Jian Yang, Yiwei Hu, Milos Hasan, Beibei Wang
Резюме на русском
#### Контекст
В современном 3D-контенте графические ресурсы должны быть высококачественными и детальными. Одним из ключевых аспектов является создание SVBRDF (Spatially Varying Bidirectional Reflectance Distribution Function), который определяет свойства отражения и рассеивания света на поверхности объектов. Традиционные методы порой не могут обеспечить достаточную разрешающую способность или структурную консистенцию. Наблюдается возросшая мотивация для развития методов, позволяющих создавать SVBRDF с высокой разрешающей способностью и синхронностью между различными каналами (например, рифтом, нормалью, и т.д.), что является ключевой сложностью в этой области.
#### Метод
HiMat — это инновационный фреймворк, основанный на Diffusion Transformer (DiT), который разработан для генерации SVBRDF с высоким разрешением. Основной идеей является добавление CrossStitch модуля, который управляет зависимостями между каналами (например, нормаль и рфт) в рамках существующей архитектуры DiT, не требуя изменения её базовых слоев. Этот модуль имеет легкий вес и оперирует локально, чтобы сохранить высокую эффективность. Метод также поддерживает 4K-разрешение, обеспечивая сохранение высокой структурной консистенции и финер-детайлов. Архитектура HiMat оптимизирована для высокой эффективности и сохранения качества без потерь, связанных с добавлением новых моделей или изменениями в DiT.
#### Результаты
Тестирование HiMat проводилось на большом количестве текстовых промитов для генерации SVBRDF-материалов. Результаты показали высокую точность в генерации деталей и синхронность между различными каналами. Кроме того, HiMat направлен на расширение своих возможностей в сторону задач принципиальной декомпозиции (например, нахождения отдельных компонент отражения и рассеяния). Эксперименты показали, что алгоритм также может обрабатывать задачи, отличные от генерации SVBRDF, с высокой эффективностью, что демонстрирует широкую применимость.
#### Значимость
Предлагаемый подход имеет широкие применения в 3D-графике, виртуальной реальности, играх и рендеринге. Особенно ценно его возможность генерировать 4K-качественные SVBRDF-материалы с высокой структурной консистенцией, что значительно сокращает время разработки и улучшает реалистичность 3D-моделей. Благодаря оптимизации, HiMat является доступным для реализации на реальном хорде, что увеличивает его практическое значение.
#### Выводы
HiMat представляет собой прорыв в сфере генерации SVBRDF, обеспечивая высококачественные результаты с высокой эффективностью и консистенцией. Будущие исследования будут сконцентрированы на расширении спектра при
Abstract
Creating highly detailed SVBRDFs is essential for 3D content creation. The
rise of high-resolution text-to-image generative models, based on diffusion
transformers (DiT), suggests an opportunity to finetune them for this task.
However, retargeting the models to produce multiple aligned SVBRDF maps instead
of just RGB images, while achieving high efficiency and ensuring consistency
across different maps, remains a challenge. In this paper, we introduce HiMat:
a memory- and computation-efficient diffusion-based framework capable of
generating native 4K-resolution SVBRDFs. A key challenge we address is
maintaining consistency across different maps in a lightweight manner, without
relying on training new VAEs or significantly altering the DiT backbone (which
would damage its prior capabilities). To tackle this, we introduce the
CrossStitch module, a lightweight convolutional module that captures inter-map
dependencies through localized operations. Its weights are initialized such
that the DiT backbone operation is unchanged before finetuning starts. HiMat
enables generation with strong structural coherence and high-frequency details.
Results with a large set of text prompts demonstrate the effectiveness of our
approach for 4K SVBRDF generation. Further experiments suggest generalization
to tasks such as intrinsic decomposition.
Ссылки и действия
Дополнительные ресурсы: