A Scalable Attention-Based Approach for Image-to-3D Texture Mapping
2509.05131v1
cs.CV, cs.LG
2025-09-09
Авторы:
Arianna Rampini, Kanika Madan, Bruno Roy, AmirHossein Zamani, Derek Cheung
Резюме на русском
#### Контекст
Обработка 3D-текстур является ключевым элементом в создании реалистичного цифрового контента, но существующие методы сталкиваются с рядом проблем. Они требуют много времени, опираются на UV-карты и часто недостаточно точно отражают свойства исходных изображений. Эти ограничения затрудняют получение высококачественных 3D-текстур, что необходимо для создания реалистичных 3D-моделей. Наша исследовательская группа решилась сделать упор на новый подход, который избавился бы от этих ограничений, обеспечивая быструю и точную генерацию текстур. Мы предлагаем трансформер-базующуюся модель, которая может динамически создавать 3D-текстуры напрямую из сингулярного изображения и трехмерной сетки, без необходимости UV-карт и различных разновидностей дифференцируемого рендеринга.
#### Метод
Мы представляем новую модель, которая использует представление triplane, чтобы предсказать 3D-текстурное поле непосредственно из изображения и трехмерной меши. Модель включает в себя depth-based backprojection losses, которые позволяют обучаться с более высокой точностью и эффективностью. Основной архитектурой является трансформер, который обрабатывает последовательность входных данных и генерирует текстурный поиск. Мы также разработали простую и быструю технику для запуска, которая генерирует текстуры за 0.2 секунд на каждую модель. Это позволяет нашей модели быть применимой в реальных сценариях, где требуется быстрота и высокое качество.
#### Результаты
Мы проводили многочисленные эксперименты, используя различные данные, включая синтетические и реальные изображения с 3D-моделями. Мы сравнили нашу модель с современными алгоритмами, а также провели пользовательские оценки, чтобы оценить качество результатов. Наши результаты показали, что наш подход оказался более точным в точности и качестве текстур в сравнении с другими методами. Он также демонстрирует высокую скорость и эффективность, что делает его привлекательным для практических применений.
#### Значимость
Наш подход может применяться в различных областях, включая видеоигры, виртуальную реальность, а также в области компьютерной графики и рендеринга. Он предлагает существенные преимущества в скорости и качестве, что делает его выгодным в отраслях, где необходимо быстрое генерирование качественных 3D-текстур. Благодаря использованию трансформера и triplane-представления, мы добились не только улучшения точности, но и уменьшения времени обработки, что открывает новые возможности для быстрого 3D-контента.
#### Выводы
Мы предлагаем новую модель для
Abstract
High-quality textures are critical for realistic 3D content creation, yet
existing generative methods are slow, rely on UV maps, and often fail to remain
faithful to a reference image. To address these challenges, we propose a
transformer-based framework that predicts a 3D texture field directly from a
single image and a mesh, eliminating the need for UV mapping and differentiable
rendering, and enabling faster texture generation. Our method integrates a
triplane representation with depth-based backprojection losses, enabling
efficient training and faster inference. Once trained, it generates
high-fidelity textures in a single forward pass, requiring only 0.2s per shape.
Extensive qualitative, quantitative, and user preference evaluations
demonstrate that our method outperforms state-of-the-art baselines on
single-image texture reconstruction in terms of both fidelity to the input
image and perceptual quality, highlighting its practicality for scalable,
high-quality, and controllable 3D content creation.
Ссылки и действия
Дополнительные ресурсы: