A Scalable Attention-Based Approach for Image-to-3D Texture Mapping

2509.05131v1 cs.CV, cs.LG 2025-09-09

Авторы:

Arianna Rampini, Kanika Madan, Bruno Roy, AmirHossein Zamani, Derek Cheung

Резюме на русском

#### Контекст Обработка 3D-текстур является ключевым элементом в создании реалистичного цифрового контента, но существующие методы сталкиваются с рядом проблем. Они требуют много времени, опираются на UV-карты и часто недостаточно точно отражают свойства исходных изображений. Эти ограничения затрудняют получение высококачественных 3D-текстур, что необходимо для создания реалистичных 3D-моделей. Наша исследовательская группа решилась сделать упор на новый подход, который избавился бы от этих ограничений, обеспечивая быструю и точную генерацию текстур. Мы предлагаем трансформер-базующуюся модель, которая может динамически создавать 3D-текстуры напрямую из сингулярного изображения и трехмерной сетки, без необходимости UV-карт и различных разновидностей дифференцируемого рендеринга. #### Метод Мы представляем новую модель, которая использует представление triplane, чтобы предсказать 3D-текстурное поле непосредственно из изображения и трехмерной меши. Модель включает в себя depth-based backprojection losses, которые позволяют обучаться с более высокой точностью и эффективностью. Основной архитектурой является трансформер, который обрабатывает последовательность входных данных и генерирует текстурный поиск. Мы также разработали простую и быструю технику для запуска, которая генерирует текстуры за 0.2 секунд на каждую модель. Это позволяет нашей модели быть применимой в реальных сценариях, где требуется быстрота и высокое качество. #### Результаты Мы проводили многочисленные эксперименты, используя различные данные, включая синтетические и реальные изображения с 3D-моделями. Мы сравнили нашу модель с современными алгоритмами, а также провели пользовательские оценки, чтобы оценить качество результатов. Наши результаты показали, что наш подход оказался более точным в точности и качестве текстур в сравнении с другими методами. Он также демонстрирует высокую скорость и эффективность, что делает его привлекательным для практических применений. #### Значимость Наш подход может применяться в различных областях, включая видеоигры, виртуальную реальность, а также в области компьютерной графики и рендеринга. Он предлагает существенные преимущества в скорости и качестве, что делает его выгодным в отраслях, где необходимо быстрое генерирование качественных 3D-текстур. Благодаря использованию трансформера и triplane-представления, мы добились не только улучшения точности, но и уменьшения времени обработки, что открывает новые возможности для быстрого 3D-контента. #### Выводы Мы предлагаем новую модель для

Abstract

High-quality textures are critical for realistic 3D content creation, yet existing generative methods are slow, rely on UV maps, and often fail to remain faithful to a reference image. To address these challenges, we propose a transformer-based framework that predicts a 3D texture field directly from a single image and a mesh, eliminating the need for UV mapping and differentiable rendering, and enabling faster texture generation. Our method integrates a triplane representation with depth-based backprojection losses, enabling efficient training and faster inference. Once trained, it generates high-fidelity textures in a single forward pass, requiring only 0.2s per shape. Extensive qualitative, quantitative, and user preference evaluations demonstrate that our method outperforms state-of-the-art baselines on single-image texture reconstruction in terms of both fidelity to the input image and perceptual quality, highlighting its practicality for scalable, high-quality, and controllable 3D content creation.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

A Scalable Attention-Based Approach for Image-to-3D Texture Mapping

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Plug-and-Play Image Restoration with Flow Matching: A Continuous Viewpoint

Inference-time Stochastic Refinement of GRU-Normalizing Flow for Real-time Video...

Rethinking the Use of Vision Transformers for AI-Generated Image Detection

Aligned but Stereotypical? The Hidden Influence of System Prompts on Social Bias...

HTR-ConvText: Leveraging Convolution and Textual Information for Handwritten Tex...

Навигация