📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 Improving Facial Rig Semantics for Tracking and Retargeting

2025-08-14

Авторы:

Dalton Omens, Allise Thurman, Jihun Yu, Ronald Fedkiw

## Контекст Одним из важнейших аспектов современных технологий виртуальной реальности (VR) и игровой индустрии является точная работа с лицом персонажа в реальном времени. Однако существуют серьезные проблемы при попытке сопоставить лицо одного персонажа с другим, особенно если одно из них представляет собой виртуальный персонаж или герой игры. Проблема заключается в том, что рамки (rigs), используемые для трекинга и анимации лица, часто несовместимы. Данная работа призвана решить эту проблему, предлагая метод, который позволяет улучшить семантическую составляющую лицевого систематического моделирования (facial rig semantics), благодаря чему упрощается процесс сопоставления и ранее невозможного перенацеливания лица (retargeting). ## Метод Для решения проблемы сопоставления лицевых систематических моделей, авторы предлагают использовать метод **volumetric morphing** (твердотельное морфинге) для того, чтобы "приспособить" рамку одного лица под лицо другого. Чтобы добиться более точного соответствия, используется набор **Simon-Says expressions** (синонимы выражений), который позволяет калибровать рамки лица под конкретный актер или виртуальный персонаж. Этот набор выражений настраивается так, чтобы каждая рамка лица могла быть лучше скорректирована для достижения желаемых эмоций и выражений. Далее, для улучшения контроля над лицом используется **fine-tuning**, который использует **implicit differentiation** (неявное дифференцирование), чтобы избежать ошибок, которые могут возникать при работе с нечёткими или нестандартными рамками. ## Результаты В ходе экспериментов, проведенных с использованием различных рамков лиц (3DMM, FLAME и MetaHuman), показано, что предлагаемый подход способен значительно улучшить точность и семантическое соответствие лицов. При использовании Simon-Says expressions удалось оптимизировать рамки для того, чтобы имитировать выражения желаемого персонажа. Также, визуальные эксперименты показали, что при использовании fine-tuning можно добиться более живых и точных анимаций, даже в случае сложных сцен. Полученные результаты подтвердили, что метод обеспечивает лучшую семантическую точность и более надежную поддержку при реализации лицевой анимации. ## Значимость Предлагаемый подход имеет большое значение в таких областях, как VR, игровая индустрия и анимация. Он позволяет улучшить точность и эффективность лицевой анимации, что является ключевым фактором для создания более живых и реалистичных виртуальных окружений. Кроме того, использование **volumetric morphing** и **Simon-Says expressions** делает процесс сопоставления лиц более удобным и точным. Этот подход может существенно уменьшить время и сложность при разрабо

Annotation:

In this paper, we consider retargeting a tracked facial performance to either another person or to a virtual character in a game or virtual reality (VR) environment. We remove the difficulties associated with identifying and retargeting the semantics of one rig framework to another by utilizing the same framework (3DMM, FLAME, MetaHuman, etc.) for both subjects. Although this does not constrain the choice of framework when retargeting from one person to another, it does force the tracker to use ...

ID: 2508.08429v1 cs.GR, cs.CV

arXiv PDF

📄 Hybrid Long and Short Range Flows for Point Cloud Filtering

2025-08-14

Авторы:

Dasith de Silva Edirimuni, Xuequan Lu, Ajmal Saeed Mian, Lei Wei, Gang Li, Scott Schaefer, Ying He

#### Контекст Точечные облака (point clouds) широко используются в различных приложениях, таких как рендеринг, визуализация и технические задачи. Однако захват точечных облаков часто подвержен ошибкам, в результате которых появляются шумы и ненужные детали. Эти шумы искажают точечные облака, снижая качество информации и затрудняя их использование. Недавние методы фильтрации точечных облаков стремятся решить эти проблемы, но часто столкнулись с проблемами, такими как неэффективность фильтрации или неэффективный алгоритм. Мы предлагаем гибридный метод фильтрации точечных облаков, который использует как короткие, так и длинные траектории фильтрации для эффективного удаления шумов. #### Метод Предлагаемый метод, Hybrid Point Cloud Filtering ($\textbf{HybridPF}$), объединяет два подхода к фильтрации точечных облаков: краткосрочную и долгосрочную фильтрацию. Краткосрочная фильтрация (ShortModule) использует $\nabla_{x}\log p(x_t)$ для определения точек, которые нужно двинуть, чтобы выровнять их с чистым подкладом. Долгосрочная фильтрация (LongModule) определяет траектории, направленные от высокошумных патчей $x_0$ к чистым патчам $x_1$. Эти две модели работают параллельно, используя парные Encoder-Decoder. Мы также предлагаем динамический графовый кодировщик для улучшения процесса вывода. Метод обучается с помощью совместной функции потерь, что обеспечивает эффективную настройку всех компонент. #### Результаты Мы проводим эксперименты на нескольких датасетах, включая 3DMatch и KITTI. В результате HybridPF показывает лучшие результаты по сравнению с современными методами фильтрации, обеспечивая более точное удаление шумов и более гладкие точечные облака. Наша модель также демонстрирует высокую скорость вывода, что важно для реального времени. В результате, HybridPF может быть эффективно использовано в приложениях, требующих быстрой обработки точечных облаков. #### Значимость Наша работа имеет широкие перспективы в различных областях, таких как визуальная систематизация, 3D-визуализация и автоматические системы сбора данных о геометрии. Ее преимущества заключаются в том, что она обеспечивает более точную фильтрацию, быструю обработку и лучший результат по сравнению с другими методами. Это может повлиять на развитие новых технологий в области визуальных систем, позволяя улучшить качество и эффективность визуальных моделей. #### Выводы Мы представили новую модель HybridPF, которая эффективно объединяет краткосрочные и долгосрочные фильтрационные траектории для более точной фильтрации точечных облаков. Мы также п

Annotation:

Point cloud capture processes are error-prone and introduce noisy artifacts that necessitate filtering/denoising. Recent filtering methods often suffer from point clustering or noise retaining issues. In this paper, we propose Hybrid Point Cloud Filtering ($\textbf{HybridPF}$) that considers both short-range and long-range filtering trajectories when removing noise. It is well established that short range scores, given by $\nabla_{x}\log p(x_t)$, may provide the necessary displacements to move n...

ID: 2508.08542v1 cs.GR, cs.CV

arXiv PDF

📄 Exploring Palette based Color Guidance in Diffusion Models

2025-08-14

Авторы:

Qianru Qiu, Jiafeng Mao, Xueting Wang

## Контекст Современные текстово-изображение (T2I) модели, основанные на архитектуре типа Diffusion, достигли высокого качества генерации изображений. Однако, несмотря на их интуитивность, эти модели испытывают определенные сложности в контролировании цветовых схем в изображениях. Использование текстовых подсказок (prompts) позволяет указывать цвета объектов, но часто недостаточно для комплексного управления цветовой схемой всего изображения, особенно для фоновых элементов и незначительных объектов, которые не явно определены в текстовой композиции. Это приводит к несоответствию между пользовательскими ожиданиями и реальным результатом. Наша мотивация заключается в развитии системы, которая бы позволила более точно и гибко контролировать цветовую схему, особенно для фоновых элементов и незначительных объектов. ## Метод Мы предлагаем интегрировать цветовые палитры как отдельный механизм управления, который будет работать вместе с текстовыми подсказками. Наш метод включает несколько этапов: 1. **Представление цветовой палитры**: Мы представляем цвета в виде нескольких точек в RGB-пространстве, которые объединены в одну структуру для более точного управления. 2. **Интеграция с текстовыми подсказками**: Мы синхронизируем цветовые палитры с текстовыми подсказками, чтобы обеспечить более синергетическое управление цветовой схемой. 3. **Оптимизация в процессе обучения**: Мы оптимизируем модель в процессе обучения, используя палитру как дополнительный сигнал для улучшения точности и качества генерации. 4. **Специальные данные**: Мы создали набор данных, который включает текстовые подсказки, цветовые палитры и соответствующие изображения, для полного исследования возможностей этого подхода. ## Результаты Мы провели многочисленные эксперименты для оценки эффективности нашего подхода. Использовались различные данные для тестирования, включая общедоступные и специально подготовленные наборы. Мы измеряли качество генерируемых изображений с помощью метрик, таких как PSNR, SSIM и LPIPS. Наши результаты показали, что использование цветовых палитр в качестве дополнительного управляющего сигнала существенно повышает точность и качество генерации, особенно для фоновых элементов и незначительных объектов. Мы также провели визуальные оценки, подтверждающие, что наш подход обеспечивает более точное соответствие цветовых схем пользовательским ожиданиям. ## Значимость Наш подход может быть применен в различных областях, таких как графический дизайн, визуализация и искусственное интеллектуальное создание изображений.

Annotation:

With the advent of diffusion models, Text-to-Image (T2I) generation has seen substantial advancements. Current T2I models allow users to specify object colors using linguistic color names, and some methods aim to personalize color-object association through prompt learning. However, existing models struggle to provide comprehensive control over the color schemes of an entire image, especially for background elements and less prominent objects not explicitly mentioned in prompts. This paper propo...

ID: 2508.08754v1 cs.GR, cs.CV, cs.MM

arXiv PDF

📄 DiffPhysCam: Differentiable Physics-Based Camera Simulation for Inverse Rendering and Embodied AI

2025-08-14

Авторы:

Bo-Hsun Chen, Nevindu M. Batagoda, Dan Negrut

#### Контекст Рост интереса к системам с автономным визуальным воздействием, таким как роботы и виртуальная реальность, поднимает сложности синтеза реалистичных визуальных данных. Эти компоненты значительно влияют на обучение моделей визуальных сетей и визуально-моторного обучения. Однако существующие виртуальные камеры имеют ограниченный контроль над внутренними параметрами, плохо моделируют оптические артефакты, и нередко не поддерживают калибровку с использованием реальных данных. Это снижает эффективность симуляций и снижает доверие к технологиям сим-то-реал. DiffPhysCam предлагает решение этих проблем, улучшая реалистичность и точность синтеза визуальных данных. #### Метод DiffPhysCam — это разработанный метод, основанный на дифференцируемых принципах физики, предназначенный для синтеза искусственных визуальных данных. Он включает в себя несколько этапов: начиная от построения синтетических изображений до инверсного рендеринга для восстановления меша и объектных материалов. Оптические эффекты, такие как рассеивание и defocus blur, учитываются через дифференцируемые модели. Кроме того, DiffPhysCam поддерживает вычисления градиентов для оптимизации целевых переменных, таких как глубина или материальные характеристики. Эта архитектура позволяет ему хорошо справляться с задачами, требующими точного воспроизведения затухания и гауссовского размытия. #### Результаты В ходе экспериментов DiffPhysCam показал высокую точность в синтезе изображений, особенно в задачах с фокусировкой и рассеиванием. Он был успешно применен для реконструкции трёхмерных сцен с помощью инверсного рендеринга и для тренировки роботов в симуляциях. Например, робот-грузовик смог успешно перемещаться по симулируемой обстановке, используя изображения, сгенерированные DiffPhysCam. Эти результаты показали, что DiffPhysCam превосходит существующие решения в области визуальных симуляций. #### Значимость DiffPhysCam может быть применён в различных областях, включая робототехнику, виртуальную реальность и цифровые двойники. Он предоставляет улучшенный контроль над камерой и моделями оптических эффектов, что обеспечивает более точное воспроизведение реальных условий. Это позволяет значительно повысить эффективность тестов и обучения визуальных моделей в симуляционных средах. Будущие работы будут сфокусированы на расширении функциональных возможностей DiffPhysCam и его интеграции с более сложными системами симуляций. #### Выводы DiffPhysCam представляет собой значительный шаг в области синтеза и моделирования визуальных данных. О

Annotation:

We introduce DiffPhysCam, a differentiable camera simulator designed to support robotics and embodied AI applications by enabling gradient-based optimization in visual perception pipelines. Generating synthetic images that closely mimic those from real cameras is essential for training visual models and enabling end-to-end visuomotor learning. Moreover, differentiable rendering allows inverse reconstruction of real-world scenes as digital twins, facilitating simulation-based robotics training. H...

ID: 2508.08831v1 cs.GR, cs.CV, cs.RO

arXiv PDF

📄 VertexRegen: Mesh Generation with Continuous Level of Detail

2025-08-14

Авторы:

Xiang Zhang, Yawar Siddiqui, Armen Avetisyan, Chris Xie, Jakob Engel, Henry Howard-Jenkins

#### Контекст Область геометрического моделирования и визуализации трехмерных объектов играет ключевую роль в различных приложениях, включая графику, интерактивные системы, симуляции и виртуальную реальность. Одна из наиболее сложных задач в этой области — генерация меша (mesh) с плавной сменой уровня детализации (continuous level of detail, CLOD). Традиционные методы либо генерируют меш полностью, либо производят поэтапную генерацию, что приводит к несогласованности в промежуточных этапах. Данная работа адресует проблему построения фреймворка для постепенного повышения подробности трехмерных моделей, обеспечивающего качественную и плавную генерацию во время работы. #### Метод Предлагаемый фреймворк VertexRegen основывается на подходе, инспирированном прогрессивными мешами, но использует процесс, называемый "сжатием вершины" (vertex split) в качестве генеративной модели. Алгоритм работает в двух этапах: вначале происходит разделение вершин существующего меша, а затем — реконструкция подробностей с применением нейронной сети. Эта модель учится различать различные уровни детализации и постепенно повышать уровень детализации в зависимости от требований. Эта реализация позволяет генерировать меш в любой момент процесса, предоставляя динамическую гибкость в выборе уровня детализации. #### Результаты Выполнены эксперименты для сравнения VertexRegen с другими современными методами генерации меша. Использовались различные типы трехмерных моделей, включая симплексы и сложные декоративные объекты. Результаты показали, что VertexRegen достигает качества, сопоставимого с лучшими существующими методами, при этом обеспечивая уникальную возможность получить модель в любой момент процесса генерации. Это делает его применимым в сценариях, где необходима интерактивность или ограниченная мощность вычислений. #### Значимость Предложенный подход имеет широкие области применения, включая виртуальную и дополненную реальность, игровую индустрию, а также приложения в сфере инженерии и анализа данных. Он обеспечивает более эффективную обработку данных, так как пользователь может остановить генерацию в любой момент и получить модель, подходящую под текущие требования. Это делает VertexRegen более гибким и удобным в использовании по сравнению с традиционными методами. #### Выводы Главным достижением работы является разработка VertexRegen, новый фреймворк для генерации меша с продолжительностью, который обеспечивает качественное моделирование и продолжительность во время работы. Он предоставляет гибкую модель для динамического контроля уровня детализации, что делает его примени

Annotation:

We introduce VertexRegen, a novel mesh generation framework that enables generation at a continuous level of detail. Existing autoregressive methods generate meshes in a partial-to-complete manner and thus intermediate steps of generation represent incomplete structures. VertexRegen takes inspiration from progressive meshes and reformulates the process as the reversal of edge collapse, i.e. vertex split, learned through a generative model. Experimental results demonstrate that VertexRegen produc...

ID: 2508.09062v1 cs.GR, cs.CV, cs.LG

arXiv PDF

📄 Uncertainty Estimation for Novel Views in Gaussian Splatting from Primitive-Based Representations of Error and Visibility

2025-08-09

Авторы:

Thomas Gottwald, Edgar Heinert, Matthias Rottmann

**Резюме** В статье предлагается новый подход к оценке неопределенности (UE) в Gaussian Splatting, критично важной для приложений в сферах робототехники и медицины. Общая проблема заключается в необходимости точной и надёжной оценки неопределенности для поддержки решений в условиях неопределенности данных. Рассматривается особенность текущих методов, которые основываются на расчёте дисперсии гауссовских примитивов, что не всегда учитывает всю информацию об ошибках и видимости. Предложенное решение заключается в создании новой модели, основанной на проекции ошибки и видимости тренировочных представлений на примитивы. Эта модель позволяет рассчитать неопределенность для новых сцен, используя рендеринг примитивов неопределенности и последующую регрессионную агрегацию по данным holdout. Эксперименты показали, что предложенный подход демонстрирует высокую корреляцию с реальными ошибками и превосходит состояние технологий, особенно в случае работы с фоновыми объектами. Более того, модели показали хорошую общую способность к новым сценам, что упрощает применение этого подхода в новых условиях без дополнительного тренировочного материала.

Annotation:

In this work, we present a novel method for uncertainty estimation (UE) in Gaussian Splatting. UE is crucial for using Gaussian Splatting in critical applications such as robotics and medicine. Previous methods typically estimate the variance of Gaussian primitives and use the rendering process to obtain pixel-wise uncertainties. Our method establishes primitive representations of error and visibility of trainings views, which carries meaningful uncertainty information. This representation is ob...

ID: 2508.02443v1 cs.GR, cs.CV

arXiv PDF

📄 READ: Real-time and Efficient Asynchronous Diffusion for Audio-driven Talking Head Generation

2025-08-09

Авторы:

Haotian Wang, Yuzhe Weng, Jun Du, Haoran Xu, Xiaoyan Wu, Shan He, Bing Yin, Cong Liu, Jianqing Gao, Qingfeng Liu

Реализация моделей, основанных на распространенных методах генерирования речи и говорящих голов, возникает проблема с длительным временем вывода, что ограничивает их практическое применение. Мы предлагаем READ (Real-time and Efficient Asynchronous Diffusion) — первый рамфрейм для генерации говорящих голов, основанный на модели распределения, который достигает реального времени. Основная идея заключается в том, чтобы уменьшить количество токенов с помощью временной VAO, а затем использовать предварительно обученный Speech Autoencoder (SpeechAE) для создания кодов видео-информации, соответствующих видео-локальным кодам. Эти коды моделируются с помощью новой сети Audio-to-Video Diffusion Transformer (A2V-DiT) для эффективной генерации. Чтобы обеспечить консистентность и ускорить вывод в расширенной постановке, мы предлагаем асинхронный шейпер шума (ANS). Наши эксперименты показывают, что READ многократно превосходит состояние технологий, обеспечивая высокую скорость, не отказываясь от качества и метрической стабильности на протяжении долгого времени.

Annotation:

The introduction of diffusion models has brought significant advances to the field of audio-driven talking head generation. However, the extremely slow inference speed severely limits the practical implementation of diffusion-based talking head generation models. In this study, we propose READ, the first real-time diffusion-transformer-based talking head generation framework. Our approach first learns a spatiotemporal highly compressed video latent space via a temporal VAE, significantly reducin...

ID: 2508.03457v2 cs.GR, cs.CV, cs.SD, eess.AS

arXiv PDF

📄 RLGS: Reinforcement Learning-Based Adaptive Hyperparameter Tuning for Gaussian Splatting

2025-08-09

Авторы:

Zhan Li, Huangying Zhan, Changyang Li, Qingan Yan, Yi Xu

3D Gaussian Splatting (3DGS) — метод рендеринга 3D-сцен, требующий тонкого адаптивного гиперпараметрического регулирования для получения качественных результатов. Однако этот процесс требует значительных усилий и опыта специалиста. Мы предлагаем RLGS — модель, основанную на развитии стратегий при помощи реINFOrмационного обучения, для адаптивного гиперпараметрического оптимизационного процесса в 3DGS. Решение включает в себя лёгкие политические модели, которые динамически корректируют ключевые параметры, такие как скорость обучения и пороги денсификации. RLGS является моделью, независимой от конкретной архитектуры 3DGS, и может быть легко интегрирована в существующие 3DGS-процессы. Мы проверили её эффективность на нескольких современных 3DGS-моделях, включая Taming-3DGS и 3DGS-MCMC, и показали, что она последовательно повышает качество рендеринга — например, улучшила PSNR Taming-3DGS на 0.7 dB на TNT датасете. Наши результаты указывают на то, что RLGS представляет собой эффективное и универсальное решение для автоматизации гиперпараметрического оптимизационного процесса в 3DGS.

Annotation:

Hyperparameter tuning in 3D Gaussian Splatting (3DGS) is a labor-intensive and expert-driven process, often resulting in inconsistent reconstructions and suboptimal results. We propose RLGS, a plug-and-play reinforcement learning framework for adaptive hyperparameter tuning in 3DGS through lightweight policy modules, dynamically adjusting critical hyperparameters such as learning rates and densification thresholds. The framework is model-agnostic and seamlessly integrates into existing 3DGS pipe...

ID: 2508.04078v1 cs.GR, cs.CV, cs.LG

arXiv PDF

📄 Surf3R: Rapid Surface Reconstruction from Sparse RGB Views in Seconds

2025-08-09

Авторы:

Haodong Zhu, Changbai Li, Yangyang Ren, Zichao Feng, Xuhui Liu, Hanlin Chen, Xiantong Zhen, Baochang Zhang

Реконструкция 3D-сцен из нескольких видов (многовидовая реконструкция) требует точного расчета калибровки и позиционирования камеры, что затрудняет ее применение в практических задачах. Мы предлагаем Surf3R — метод, который реконструирует 3D-поверхности из нескольких спарсевых видов без необходимости точного расчета камеры. Модель работает в единой сети и использует несколько спарсевых видов для взаимодействия и улучшения реконструкции. Один из ключевых моментов — введение D-Normal regularizer, который оптимизирует геометрические параметры поверхности с помощью 3D-представления нормалей. Это позволяет повысить точность и постоянство реконструкции. На двух известных датасетах (ScanNet++ и Replica) метод показал результаты, значительно превосходящие современные подходы по метрикам качества и эффективности. Таким образом, Surf3R представляет собой эффективное и оптимизированное решение для реконструкции 3D-поверхностей из нескольких видов.

Annotation:

Current multi-view 3D reconstruction methods rely on accurate camera calibration and pose estimation, requiring complex and time-intensive pre-processing that hinders their practical deployment. To address this challenge, we introduce Surf3R, an end-to-end feedforward approach that reconstructs 3D surfaces from sparse views without estimating camera poses and completes an entire scene in under 10 seconds. Our method employs a multi-branch and multi-view decoding architecture in which multiple re...

ID: 2508.04508v1 cs.GR, cs.CV

arXiv PDF

📄 MienCap: Realtime Performance-Based Facial Animation with Live Mood Dynamics

2025-08-09

Авторы:

Ye Pan, Ruisi Zhang, Jingying Wang, Nengfu Chen, Yilin Qiu, Yu Ding, Kenny Mitchell

**Резюме** Авторы предлагают MienCap — систему для реализации реалистичных 3D-анимаций лиц с учетом динамики эмоционального состояния. Основная проблема заключается в трудностях создания перспективных и анимированных 3D-моделей, которые сочетали бы техники классической анимации с новыми методами машинного обучения, обеспечивая актуальность, геометрическую консистентность и перспективность эмоциональных выражений. Решением становится совмещение традиционных техник вместе с нейросетевыми моделями для генерации реалистичных выражений лиц в реальном времени. Авторы предлагают два подхода: нереальное время с использованием 3D-технологий и реальное время с адаптацией технологии blendshape. Оба подхода показали высокую эффективность по сравнению с коммерческим продуктом Faceware, повысив значительно оценки на уровне распознавания выражений, их интенсивности и привлекательности. Это предоставляет аниматорам новые возможности для быстрого и точного создания эмоциональных выражений.

Annotation:

Our purpose is to improve performance-based animation which can drive believable 3D stylized characters that are truly perceptual. By combining traditional blendshape animation techniques with multiple machine learning models, we present both non-real time and real time solutions which drive character expressions in a geometrically consistent and perceptually valid way. For the non-real time system, we propose a 3D emotion transfer network makes use of a 2D human image to generate a stylized 3D ...

ID: 2508.04687v1 cs.GR, cs.CV, I.3.2; I.4.10

arXiv PDF

Показано 101 - 110 из 115 записей