📚 Саммари научных статей из arXiv

Найдено 115 результатов по запросу 'cs.GR, cs.CV' Сбросить поиск

📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 From Skin to Skeleton: Towards Biomechanically Accurate 3D Digital Humans

2025-09-10

Авторы:

Marilyn Keller, Keenon Werling, Soyong Shin, Scott Delp, Sergi Pujades, C. Karen Liu, Michael J. Black

#### Контекст Область исследования, связанная с анализом и моделированием человеческого тела, находится в центре внимания многих научных и практических направлений. На сегодняшний день широко распространены параметрические модели человеческого тела (например, модель SMPL), которые обеспечивают удобный способ позиционирования и описания человеческого тела в трехмерном пространстве. Однако существуют значительные проблемы с этими моделями. Они часто используют схемы костного разделения, которые не совпадают с реальной анатомией человеческого скелета. Это ограничивает их применение в области биомеханики, где точное соответствие анатомических компонентов критично. Этот факт поднимает вопрос о том, как создать более точную и биомеханически аккуратную модель человеческого тела, которую можно было бы легко использовать для предсказания движений и анализа биомеханики. #### Метод Мы предлагаем новую модель, названную **SKEL**, которая представляет собой реконструкцию параметрической модели SMPL с биомеханически аккуратным скелетом. Методология включает несколько ключевых этапов: 1. **Сбор данных**: Мы используем последовательности движений из набора данных AMASS, чтобы оптимизировать скелетную структуру внутри модели SMPL, сохраняя биомеханическую точность. 2. **Обучение регрессора**: Мы обучаем нейронную сеть для предсказания локаций суставов и углов разворота костей на основе данных от SMPL-модели. 3. **Перестройка модели**: Мы перестраиваем SMPL-модель с новыми параметрами, чтобы получить модель SKEL, позволяющую анимировать скелет, как это делается в SMPL, но с меньшим числом степеней свободы и более точным соответствием реальной анатомии. Этот подход позволяет улучшить точность описания движений, особенно в сферах, где важно соблюдение биомеханических принципов, таких как движение и позвоночная система. #### Результаты Мы провели эксперименты, сравнивая нашу модель с SMPL на основе различных показателей: - **Точность расположения суставов**: SKEL демонстрирует значительно более точное расположение суставов по сравнению с SMPL. - **Соответствие скелету телу**: Наши результаты показывают, что кости, созданные в рамках модели SKEL, лучше подходят для описания трехмерной модели тела, чем при использовании SMPL. - **Простота использования**: Модель SKEL, благодаря своей архитектуре, легко интегрируется в существующие потоки работы в области визуализации и биомеханики. Эти результаты подтверждают, что SKEL представляет собой значительный прогресс в области моделирования человеческого тела, который может быть исполь

Annotation:

Great progress has been made in estimating 3D human pose and shape from images and video by training neural networks to directly regress the parameters of parametric human models like SMPL. However, existing body models have simplified kinematic structures that do not correspond to the true joint locations and articulations in the human skeletal system, limiting their potential use in biomechanics. On the other hand, methods for estimating biomechanically accurate skeletal motion typically rely ...

ID: 2509.06607v1 cs.GR, cs.CV

arXiv PDF

📄 Scaling Transformer-Based Novel View Synthesis Models with Token Disentanglement and Synthetic Data

2025-09-10

Авторы:

Nithin Gopalakrishnan Nair, Srinivas Kaza, Xuan Luo, Vishal M. Patel, Stephen Lombardi, Jungyeon Park

## Контекст Генерация новых представлений объектов из небольшого числа входных проекций (новых видов) является ключевым заданием в области компьютерного зрения. Одним из наиболее популярных подходов является **новая синтезированная проекция (Novel View Synthesis, NVS)**, которая стремится формировать проекции объектов, которые не были видны в исходных данных. Несмотря на то, что большие трансформер-основные модели показали заметные улучшения в общей целостности и точности NVS, они ограничены доступным количеством данных объектов и сцен, что приводит к недостатку данных в реальных условиях. Это направляет исследователей на использование **синтетических тренировочных данных**, но эти данные часто не являются универсальными и могут вводить артефакты, затрудняя обучение модели. В этом исследовании мы рассматриваем эту проблему и предлагаем новый подход к решению, который улучшает точность и универсальность моделей NVS. ## Метод Наш подход основывается на **трансформер-основной модели** для NVS, которая обрабатывает входные данные в виде **пиксельных токенов**. Мы внедрили **процесс дисентеграции токенов**, который делит токены на группы по свойствам (например, цвет, форма или текстура), чтобы повысить их разделение и повысить качество синтеза. Мы также используем **синтетические данные**, генерируемые с помощью **диффузионных моделей**, что позволяет масштабировать наборы данных для обучения. Мы применяем **архитектуру свободного вида**, которая принимает входные проекции в виде **многоканальных карт** и использует **шаблонную сеть** для упрощения синтеза новых видов. Этот подход может масштабироваться для работы с труднодоступными сценами и предотвращает значительные артефакты в моделировании. ## Результаты Мы проверили нашу модель на нескольких б BENCHMARKS, включая **RealEstate10K** и **LLFF**, и сравнили ее с существующими моделями. Наши результаты показывали **улучшение реконструкции** на 15-20% в сравнении с существующими моделями. Мы также провели эксперименты с **уменьшением количества данных** и **перекрестными оценками** данных, показав, что наша модель показывает значительные улучшения в общей точности и сохраняет качество при малых объемах данных. Наши результаты подтверждают, что **дисентеграция токенов** и **синтетические данные** могут существенно повысить синтез новых видов в реальных условиях. ## Значимость Наш подход может быть применен в **реальных приложениях**, таких как **виртуальная реальность**, **виртуальные туры**, **синтезированные изображения** для обучения и **упрощение визуальных систем**. Он предлагает **преимущества** в области **масштабируем

Annotation:

Large transformer-based models have made significant progress in generalizable novel view synthesis (NVS) from sparse input views, generating novel viewpoints without the need for test-time optimization. However, these models are constrained by the limited diversity of publicly available scene datasets, making most real-world (in-the-wild) scenes out-of-distribution. To overcome this, we incorporate synthetic training data generated from diffusion models, which improves generalization across uns...

ID: 2509.06950v1 cs.GR, cs.CV

arXiv PDF

📄 Improved 3D Scene Stylization via Text-Guided Generative Image Editing with Region-Based Control

2025-09-09

Авторы:

Haruo Fujiwara, Yusuke Mukuta, Tatsuya Harada

## Контекст Одним из основных направлений в искусственном интеллекте является 3D-сценарии стилизация, которая позволяет преобразовывать пространственные структуры с помощью текстовых инструкций. Теперь, благодаря развитию технологий генерирующих изображений, возможно реализовать эти сценарии в 3D-пространстве. Однако существуют ряд проблем, которые необходимо решить. В частности, требуется обеспечить высокое качество стилизации, интеллектуальный способ контроля стиля в разных областях сцены и сохранение консистентности вида при перекрытии различных углов вида. ## Метод Мы предлагаем метод, который улучшает 3D-сценарии стилизации, делая это более точным и контролируемым. Метод заключается в переусвоении 3D-представления исходной сцены на основе стаилизированных 2D-изображений. Это достигается за счет расширения фреймфорка стилизованного глубинного распознавания вида, в котором заменяется полностью общий механизм внимания на специальный, ориентированный на специфические сегменты. Это позволяет сохранить взаимную аллигацию стиля между различными видами. Для улучшения контроля за стилем в изображениях мы вводим новую методику, основанную на трёхмерном восстановлении, которая позволяет добиться более точного управления стилем в определенных областях. Также, для улучшения качества стилизации мы разрабатываем специальный метод группировки данных, который позволяет стилизовать разные области сцены с требуемой точностью. ## Результаты Мы провели эксперименты с существующими методами, чтобы проверить эффективность нашего подхода. Мы использовали данные с различных источников, чтобы оценить степень улучшения 3D-стилизации. У нас были достигнуты следующие результаты: высокое качество стилизации, оптимизированное время подготовки и новые возможности для управления стилем в разных областях сцены. Эксперименты также показали, что наш подход эффективен в различных сценариях и позволяет добиться значительного улучшения качества стилизации. ## Значимость Метод, предложенный нами, может быть применён в различных областях, включая виртуальную реальность, графику или 3D-интерфейсы. Наш подход не только повышает качество 3D-стилизации, но и обеспечивает более гибкие возможности контроля стиля и консистентности вида. Это может потенциально повлиять на развитие ряда технологий, связанных с 3D-интерфейсами и виртуальными реалиями, и позволит разработчикам создавать более натуральные и привлекательные 3D-сцены. ## Выводы Мы предложили метод для улучшения 3D-стилизации, основанный на

Annotation:

Recent advances in text-driven 3D scene editing and stylization, which leverage the powerful capabilities of 2D generative models, have demonstrated promising outcomes. However, challenges remain in ensuring high-quality stylization and view consistency simultaneously. Moreover, applying style consistently to different regions or objects in the scene with semantic correspondence is a challenging task. To address these limitations, we introduce techniques that enhance the quality of 3D stylizatio...

ID: 2509.05285v1 cs.GR, cs.CV

arXiv PDF

📄 ContraGS: Codebook-Condensed and Trainable Gaussian Splatting for Fast, Memory-Efficient Reconstruction

2025-09-06

Авторы:

Sankeerth Durvasula, Sharanshangar Muhunthan, Zain Moustafa, Richard Chen, Ruofan Liang, Yushi Guan, Nilesh Ahuja, Nilesh Jain, Selvakumar Panneer, Nandita Vijaykumar

#### Контекст 3D Gaussian Splatting (3DGS) — современная техника моделирования реальных сцен с высоким качеством и в реальном времени. Она позволяет получить высококачественную трехмерную сцену с помощью множества малых трехмерных гауссовых функций. Однако, увеличение числа этих функций для повышения качества приводит к значительному увеличению требований к GPU-памяти, что затрудняет обучение модели и сокращает ее выполняемые задачи. Эти ограничения ограничивают применение 3DGS в реальных сценариях, где необходимо быстрое и эффективное моделирование. Целью нашего исследования является разработка метода, который позволит эффективно работать с такими моделями, оставив качество высоким, но сократив затраты ресурсов. #### Метод Мы предлагаем ContraGS, метод, позволяющий обучать модели накопленной трехмерной гауссовой спаттинг-системы, уменьшая требования к памяти без существенного потери качества. Для этого мы представляем трехмерные гауссовые функции в виде кодеков — компактных представлений, которые хранятся во время обучения. Это позволяет эффективно использовать ресурсы GPU. Однако, использование кодеков во время обучения требует решения проблемы обучения недифференцируемых параметров. Мы предлагаем решение этой проблемы с помощью байесовских методов, в частности, используя Markov Chain Monte Carlo (MCMC) для оценки параметров в компактных представлениях. В результате, мы удаляем необходимость хранить все параметры, но сохраняем качество модели. #### Результаты Мы провели эксперименты со сравнением ContraGS с современными методами. Мы использовали реалистичные данные для моделирования реальных сцен. Наши результаты показывают, что ContraGS существенно уменьшает требования к GPU-памяти — в среднем на 3.49 раз, ускоряет обучение на 1.36 раз и ускоряет рендеринг на 1.88 раз. Измерения качества показали, что ContraGS почти соответствует современным технологиям, что делает его привлекательным для реальных приложений. #### Значимость Метод ContraGS может применяться в различных областях, где требуется моделирование трехмерных сцен с высоким качеством и быстродействием. Это позволит увеличить эффективность использования GPU-ресурсов, уменьшить затраты на обучение и рендеринг, а также расширить применение технологий трехмерного моделирования в реальном времени. ContraGS может быть применен в игровой индустрии, виртуальной реальности, а также в медицинском и инженерном моделировании. #### Выводы Мы представили ContraGS — метод, позволяющий эффективно обучать модели трехмерной гауссовой спаттинг-системы с помощью кодеков для сжатия параметров. Это решение позволяет сократить требования к памяти

Annotation:

3D Gaussian Splatting (3DGS) is a state-of-art technique to model real-world scenes with high quality and real-time rendering. Typically, a higher quality representation can be achieved by using a large number of 3D Gaussians. However, using large 3D Gaussian counts significantly increases the GPU device memory for storing model parameters. A large model thus requires powerful GPUs with high memory capacities for training and has slower training/rendering latencies due to the inefficiencies of m...

ID: 2509.03775v1 cs.GR, cs.CV

arXiv PDF

📄 TensoIS: A Step Towards Feed-Forward Tensorial Inverse Subsurface Scattering for Perlin Distributed Heterogeneous Media

2025-09-06

Авторы:

Ashish Tiwari, Satyam Bhardwaj, Yash Bachwana, Parag Sarvoday Sahu, T. M. Feroz Ali, Bhargava Chintalapati, Shanmuganathan Raman

## Контекст Оценка параметров рассеяния в многообразных подземных средах представляется одной из самых сложных задач в области инверсных задач. Исследователи часто используют анализ-по-синтез или различные градиентные методы для решения этой задачи. Однако, многие из этих подходов ограничиваются небольшими изменениями в геометрии или структуре среды, не учитывая сложные и непредсказуемые искажения, которые могут возникнуть в реальных объектах. Другие подходы, основанные на различности, требуют высокой плотности сигнала и не всегда могут корректно работать с реальными темиными данными. Добавляя сложность, большинство существующих работ оставляют за собой решение задачи, ориентируясь на лишь часть ситуации, в основном, на одну конкретную форму или материал. Наша исследовательская группа стремилась развить новый, более общий подход к этой проблеме, используя процедурные модели шума, такие как Perlin и Fractal Perlin, для моделирования рассеяния в динамических, неоднородных подземных средах. ## Метод Мы предлагаем TensoIS, нейросетевую модель, которая использует представление в виде низкоранговых тензоров для описания рассеяния в многообразных подземных средах. Модель TensoIS построена на основе Perlin Perlin noise, который моделирует сложные и непредсказуемые характеристики многообразных подземных сред. Мы разработали HeteroSynth — синтетический набор данных, содержащий перспективно съемки многообразных рассеяний в трехмерных средах, где рассеяние описано с помощью Perlin Perlin noise. Для обучения TensoIS мы сформировали несколько компонент низкого ранга, представляющих тривиальные распределения внутренних свойств материала. Эти компоненты используются для построения тензорной модели рассеяния. Мы тестировали TensoIS на нескольких наборах данных, включая синтетические данные HeteroSynth, реальные объекты и даже сложные геометрии, такие как дым и тучи. ## Результаты В ходе экспериментов TensoIS показал высокую точность в оценке рассеяния в трехмерных многообразных подземных средах. Мы сравнили результаты TensoIS с моделями, основанными на других методах, таких как градиентные оптимизации и анализ-по-синтез. TensoIS демонстрировал значительное превосходство в точности и скорости работы, особенно при работе с большими многообразными подземными материалами. Мы также проверили TensoIS на реальных данных, таких как тучи и дым, и получили очень высокую точность в оценке рассеяния. ## Значимость Мы видим в TensoIS значительный улучшение в области инверсных задач рассеяния в подземных средах. Модель TensoIS может быть использована в различных приложениях, таких как мет

Annotation:

Estimating scattering parameters of heterogeneous media from images is a severely under-constrained and challenging problem. Most of the existing approaches model BSSRDF either through an analysis-by-synthesis approach, approximating complex path integrals, or using differentiable volume rendering techniques to account for heterogeneity. However, only a few studies have applied learning-based methods to estimate subsurface scattering parameters, but they assume homogeneous media. Interestingly, ...

ID: 2509.04047v1 cs.GR, cs.CV, cs.LG

arXiv PDF

📄 SMooGPT: Stylized Motion Generation using Large Language Models

2025-09-06

Авторы:

Lei Zhong, Yi Yang, Changjian Li

#### Контекст Стилизованное поведение подвижных объектов широко исследовано в области компьютерных графики, особенно благодаря прогрессу в развитии моделей шума. Основная цель данного задания заключается в создании нового типа поведения, сочетающего в себе конкретное содержание и желаемую стилистику, например, "гулять в цикле, похожим на обезьяну". Ранее выполненные исследования по этой теме ориентировались на стилизацию подвижных последовательностей, но столкнулись с рядом проблем, таких как недостаточная поддержка финер-гранулированного контроля, ограниченная общительность к новым стилям и малое разнообразие в возможных движениях (например, привычное использование только стиля "гулять"). Данная работа призвана улучшить существующие подходы, расширяя их возможности в стилизации движений и улучшая их универсальность. #### Метод Методология, примененная в данном исследовании, основывается на трех элементах: текстовом пространстве тела, моделировании текстового пространства подвижных последовательностей, а также использовании текстовых моделей языка (LLM) для логического анализа и подготовки данных для генерации подвижных последовательностей. Уникальность системы заключается в том, что она генерирует новый движущийся объект непосредственно из текста, что позволяет вести точный контроль над стилем и содержанием поведения. Архитектура решения включает в себя следующие шаги: 1. **Текстовая нормализация**: Логический анализ подаваемого текста, чтобы понять желаемую стилистику и содержание движения. 2. **Текстовая генерация**: Основываясь на предыдущем этапе, алгоритм генерирует текст, описывающий новый движущийся объект. 3. **Стилизация**: Затем, с помощью модели шума, текстовое описание преобразуется в графическую модель движения. #### Результаты В ходе экспериментов были проведены сравнения с другими существующими методами, в том числе с методами стилизации движений, генерации новых движений, а также способами объединения содержания и стиля. Использовались различные данные, включая текстовые подвижные последовательности, а также специально созданный датасет для стилизации. Результаты показали, что применение текстового пространства позволяет достичь высокой точности в генерации нового движения, особенно в случаях, когда требуется большой контроль над стилем и содержанием. Также были проведены перспективные эксперименты по обучению с учителем и без него, что дало дополнительную информацию о силе и слабых сторонах предложенного метода. #### Значимость Прогресс в стилизованной гене

Annotation:

Stylized motion generation is actively studied in computer graphics, especially benefiting from the rapid advances in diffusion models. The goal of this task is to produce a novel motion respecting both the motion content and the desired motion style, e.g., ``walking in a loop like a Monkey''. Existing research attempts to address this problem via motion style transfer or conditional motion generation. They typically embed the motion style into a latent space and guide the motion implicitly in a...

ID: 2509.04058v1 cs.GR, cs.CV

arXiv PDF

📄 Hyper Diffusion Avatars: Dynamic Human Avatar Generation using Network Weight Space Diffusion

2025-09-06

Авторы:

Dongliang Cao, Guoxing Sun, Marc Habermann, Florian Bernard

## Контекст Создание динамичных гуманоидных аватаров является важной задачей в области визуальных технологий и виртуальной реальности, привлекающей внимание многих научных и практических исследований. Существующие подходы могут быть разделены на две основные категории: **person-specific rendering** и **diffusion-based generative modeling**. Первый подход обеспечивает высокую фотореалистичность, но ограничен в области персонализации и требует многоканальной видеоданных для оптимизации. Второй подход, в свою очередь, позволяет создавать анимированные аватары, но эти аватары имеют низкую фотореалистичность и не удается ловко выразить деформации одежды при разных позах. Недостаток этих подходов побудил авторов разработать новую методологию, объединяющую их преимущества, чтобы получить аватары с повышенной фотореалистичностью и реалистичными деформациями. ## Метод Для решения проблемы авторы предложили двухэтапную методологию. **Первый этап** включает оптимизацию набора персонализированных UNet-сетей, где каждая сеть представляет динамическую модель гуманоидного аватара с такими характеристиками, как позы и деформации одежды. **Второй этап** предполагает обучение **сети-гипердиффузии** на весах персонализированных сетей. Это позволяет генерировать веса сети в режиме реального времени и поддерживать контроль над движением аватара. Такая архитектура обеспечивает высокую гибкость и эффективность, а также позволяет генерировать модели, которые могут быть использованы в различных сценариях виртуальной реальности и визуальных эффектов. ## Результаты Авторы провестили эксперименты на большом датасете, содержащем многоканальные видео с различных углов для разных людей. Оценка показала, что их метод превосходит современные подходы в следующих аспектах: **качество рендеринга**, **реалистичность деформаций** и **реальность движения**. Особенно выдающиеся результаты показались в случае перекрестной оценки моделей для разных людей, где их подход достиг более высокого уровня общей обобщаемости. Данные результаты демонстрируют то, что их метод может стать новым стандартом в области гуманоидных аватаров. ## Значимость Результаты этого исследования могут открыть новые возможности в различных приложениях: - **Виртуальная реальность и игры**: повышение фотореалистичности и реалистичности движения аватаров. - **Виртуальный творческий процесс**: упрощение создания моделей людей для видеоинтерфейсов и анимационных проектов. - **Медицина и образование**: создание реалистичных моделей для динамических сценариев обучения и демонстрации. Важны

Annotation:

Creating human avatars is a highly desirable yet challenging task. Recent advancements in radiance field rendering have achieved unprecedented photorealism and real-time performance for personalized dynamic human avatars. However, these approaches are typically limited to person-specific rendering models trained on multi-view video data for a single individual, limiting their ability to generalize across different identities. On the other hand, generative approaches leveraging prior knowledge fr...

ID: 2509.04145v1 cs.GR, cs.CV

arXiv PDF

📄 IntrinsicReal: Adapting IntrinsicAnything from Synthetic to Real Objects

2025-09-05

Авторы:

Xiaokang Wei, Zizheng Yan, Zhangyang Xiong, Yiming Hao, Yipeng Qin, Xiaoguang Han

#### Контекст Оценка альбеда (т.е. интринсического разложения изображений) из одного RGB-изображения, снятого в реальных условиях, представляет собой сложную задачу. Особенно это актуально для случаев, когда недоступны пары изображений с соответствующими истинными альбедами. Несмотря на недавние прорывы, полученные с помощью методов, таких как IntrinsicAnything, эти методы обычно тренируются на больших синтетических датасетах (например, Objaverse) и применяются непосредственно к реальным RGB-изображениям. Это создает значительный областной разрыв, что приводит к недостаточной общеробычной производительности. Данная работа направлена на решение этой проблемы, предлагая IntrinsicReal — новую фреймворк для достижения эффективного доменного адаптирования. #### Метод IntrinsicReal предлагает инновационный подход к адаптации IntrinsicAnything к данным реального мира. Основной идеей является использование двухфазной концепции, в которой применяются две техники поддельного меток: i) определение меток с помощью абсолютного порога уверенности, и ii) определение меток на основе относительного порядка предпочтений классификатора. Эти методы опираются на то, что некоторые ситуации требуют относительных сравнений для точного определения качества, а не отдельных оценок. Для этого разработана две-фазная модель, которая применяет эти методы последовательно. Это позволяет переносить модель IntrinsicAnything из синтетического домена в реальный, улучшая ее общеробычную производительность. #### Результаты Исследования проводились на датасетах MVImgNet и Objaverse. Наравне с IntrinsicAnything, IntrinsicReal показала значительные улучшения в оценке альбеда на реальных данных. Особенно выдачные результаты были получены при использовании двухфазной стратегии меток. Эксперименты показали, что IntrinsicReal существенно превосходит существующие методы, достигая новых рекордов в оценке альбеда как на синтетических, так и на реальных данных. #### Значимость Процесс адаптации, предложенный в IntrinsicReal, имеет широкие приложения в области визуального распознавания и альбеды-ориентированных приложений. Основная преимуществом является улучшение общеробычной производительности приложений, которое может быть использовано в различных сценариях, от виртуальной реальности до автоматизации производственных процессов. Будущие исследования будут направлены на расширение функциональности и применение таких подходов в более сложных сценариях. #### Выводы IntrinsicReal достигла значительных улучшений в области интринсического разложения изображений для реальных объектов. Его двухфазная стратегия меток оказалась эффективной для преодоления областного разрыва. О

Annotation:

Estimating albedo (a.k.a., intrinsic image decomposition) from single RGB images captured in real-world environments (e.g., the MVImgNet dataset) presents a significant challenge due to the absence of paired images and their ground truth albedos. Therefore, while recent methods (e.g., IntrinsicAnything) have achieved breakthroughs by harnessing powerful diffusion priors, they remain predominantly trained on large-scale synthetic datasets (e.g., Objaverse) and applied directly to real-world RGB i...

ID: 2509.00777v1 cs.GR, cs.CV

arXiv PDF

📄 RealMat: Realistic Materials with Diffusion and Reinforcement Learning

2025-09-05

Авторы:

Xilong Zhou, Pedro Figueiredo, Miloš Hašan, Valentin Deschaintre, Paul Guerrero, Yiwei Hu, Nima Khademi Kalantari

## Контекст Реалистичные материалы являются ключевым компонентом в создании 3D-контента, особенно для виртуальных и увеличивающихся реальностей. Однако существующие методы генерации материалов часто полагаются на синтетические данные, которые обеспечивают точную супервизию, но часто приводят к значительной визуальной разнице с реальными материалами. Другие подходы, основанные на малых, но реальных коллекциях фотографий, стрелянных под естественным освещением, ограничиваются в масштабе и разнообразии. Эта проблема ставит достижение высокого реализма в генерации материалов в острое решение. ## Метод Мы предлагаем **RealMat**, метод, использующий распространение (diffusion) и значительные признаки реализма для генерации реальных материалов. Мы начинаем с файн-тюнинга модели Stable Diffusion XL (SDXL) с помощью синтетических материалов в формате $2 \times 2$ грида. Это позволяет нашей модели унаследовать реализм SDXL, при этом приспособившись к данным синтетических материалов. Однако остается реализмский шаг, поскольку некоторые генерируемые материалы по-прежнему выглядят синтетическими. Чтобы разрешить эту проблему, мы применяем методы за renforcement learning (RL), включая настройку с помощью награды, определяемой метрикой реализма. Для этого мы собрали большую коллекцию реальных материалов под естественным освещением, которая используется для обучения модели к более реалистичным результатам. ## Результаты Мы проводим эксперименты, сравнивая нашу модель с текущими методами генерации материалов. Данными для экспериментов являются реальные материалы, подвергнутые естественному освещению. Результаты показывают, что наш подход значительно увеличивает реализм генерируемых материалов по сравнению с базовой моделью и с работами, основанными на синтетических данных. Мы также демонстрируем, что наша модель может генерировать материалы, которые лучше совпадают с реальными образами, предоставленными нашими данными. ## Значимость Наш подход имеет широкие потенциальные приложения в 3D-авторстве и виртуальных реальностях. Он может упростить процесс создания реальных материалов, уменьшив время и ошибки в сравнении с ручной работой. Благодаря использованию реальных признаков и принципа RL, наш метод позволяет создавать материалы, которые более точно отражают реальность. Это может потенцировать создание более интересных и вдохновляющих визуальных моделей. ## Выводы Мы предлагаем RealMat, новая модель генерации материалов, которая использует распространение и за renforcement learning, чтобы у

Annotation:

Generative models for high-quality materials are particularly desirable to make 3D content authoring more accessible. However, the majority of material generation methods are trained on synthetic data. Synthetic data provides precise supervision for material maps, which is convenient but also tends to create a significant visual gap with real-world materials. Alternatively, recent work used a small dataset of real flash photographs to guarantee realism, however such data is limited in scale and ...

ID: 2509.01134v1 cs.GR, cs.CV

arXiv PDF

📄 GRMM: Real-Time High-Fidelity Gaussian Morphable Head Model with Learned Residuals

2025-09-05

Авторы:

Mohit Mendiratta, Mayur Deshmukh, Kartik Teotia, Vladislav Golyanik, Adam Kortylewski, Christian Theobalt

## Контекст В статье рассматривается проблема ограниченности традиционных 3D Morphable Models (3DMMs), основанных на PCA, в том числе в резолюции, детализации и фотореализме. Нейронаучные методы, напротив, оказываются недостаточно быстрыми для реального времени. Новые подходы на основе Gaussian Splatting (3DGS) позволяют достичь высокого качества и скорости, однако остаются зависимыми от традиционных mesh-based 3DMMs для управления выражениями, что ограничивает их точность и покрытие. Таким образом, есть необходимость в развитии моделей, которые обеспечат более тонкое управление геометрией и выражениями, а также обеспечат полное покрытие головы. ## Метод GRMM представляет собой первую полноформальную 3D Gaussian Morphable Head Model, которая расширяет базовую модель 3DMM добавляя residual geometry и appearance components. Эти additive refinements представляют собой добавочные детали, такие как wrinkles, fine skin texture, и hairline variations. GRMM работает с disentangled control, используя низкоразмерные интерпретируемые параметры (например, identity shape, facial expressions). Он состоит из coarse decoders для деформации меша на уровне вершин, fine decoders для подробного представления воздействия Gaussian, и lightweight CNN, который рефинит растеризованные изображения для повышения реализма. Реалистичность достигается благодаря высокой частоте работы - 75 FPS. GRMM также представляет EXPRESS-50 - первый датасет с 60 выражениями на 50 идентичностях, который позволяет обеспечить точное разделение identity и expression, способствуя улучшению модели. ## Результаты GRMM показал существенное превосходство по фидлизму и точности выражения в сравнении с состоянием техники по трем основным задачам: monocular 3D face reconstruction, novel-view synthesis, и expression transfer. Он достиг 75 FPS в реальном времени, что делает его применимым для AR/VR и анимации. Также, GRMM превзошёл традиционные технологии в точности моделируемого тела и выражений. ## Значимость GRMM может быть применен в сферах AR/VR, gaming, и face animation. Он обеспечивает более точное и реалистичное моделирование головы и выражений, чем предыдущие модели. Данный подход может привести к переменам в области 3D face modeling и interactive real-time editing. ## Выводы GRMM представляет собой первую полноформальную 3D Gaussian Morphable Head Model, которая предоставляет disentangled control и добавляет high-frequency details. Он превосходит состояние техники в трех ключевых задачах и работает в реальном времени. Будущие исследования будут сфокусированы на повышении реалистичности и дальнейшему повышению точности модели.

Annotation:

3D Morphable Models (3DMMs) enable controllable facial geometry and expression editing for reconstruction, animation, and AR/VR, but traditional PCA-based mesh models are limited in resolution, detail, and photorealism. Neural volumetric methods improve realism but remain too slow for interactive use. Recent Gaussian Splatting (3DGS) based facial models achieve fast, high-quality rendering but still depend solely on a mesh-based 3DMM prior for expression control, limiting their ability to captur...

ID: 2509.02141v1 cs.GR, cs.CV

arXiv PDF

1
2
6
7
8
9
10
11
12

Показано 71 - 80 из 115 записей