📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня
Авторы:

Yuxiang Mao, Zhijie Zhang, Zhiheng Zhang, Jiawei Liu, Chen Zeng, Shihong Xia

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Annotation:
Expressions are fundamental to conveying human emotions. With the rapid advancement of AI-generated content (AIGC), realistic and expressive 3D facial animation has become increasingly crucial. Despite recent progress in speech-driven lip-sync for talking-face animation, generating emotionally expressive talking faces remains underexplored. A major obstacle is the scarcity of real emotional 3D talking-face datasets due to the high cost of data capture. To address this, we model facial animation ...
ID: 2510.25234v1 cs.CV, cs.AI, cs.GR
Авторы:

Shuhong Zheng, Ashkan Mirzaei, Igor Gilitschenski

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Annotation:
Current 3D/4D generation methods are usually optimized for photorealism, efficiency, and aesthetics. However, they often fail to preserve the semantic identity of the subject across different viewpoints. Adapting generation methods with one or few images of a specific subject (also known as Personalization or Subject-driven generation) allows generating visual content that align with the identity of the subject. However, personalized 3D/4D generation is still largely underexplored. In this work,...
ID: 2510.23605v1 cs.CV, cs.AI, cs.GR, cs.LG, cs.RO
Авторы:

Ying Xue, Jiaxi Jiang, Rayan Armani, Dominik Hollidt, Yi-Chi Liao, Christian Holz

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Annotation:
Tracking human full-body motion using sparse wearable inertial measurement units (IMUs) overcomes the limitations of occlusion and instrumentation of the environment inherent in vision-based approaches. However, purely IMU-based tracking compromises translation estimates and accurate relative positioning between individuals, as inertial cues are inherently self-referential and provide no direct spatial reference for others. In this paper, we present a novel approach for robustly estimating body ...
ID: 2510.21654v1 cs.CV, cs.AI, cs.GR, cs.HC, 68T07, 68T45, 68U01, I.2; I.3; I.4; I.5
Авторы:

Sayan Deb Sarkar, Sinisa Stekovic, Vincent Lepetit, Iro Armeni

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Annotation:
Transferring appearance to 3D assets using different representations of the appearance object - such as images or text - has garnered interest due to its wide range of applications in industries like gaming, augmented reality, and digital content creation. However, state-of-the-art methods still fail when the geometry between the input and appearance objects is significantly different. A straightforward approach is to directly apply a 3D generative model, but we show that this ultimately fails t...
ID: 2510.16136v1 cs.CV, cs.AI, cs.GR
Авторы:

Giuseppe Lorenzo Catalano, Agata Marta Soccini

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Annotation:
Space exploration increasingly relies on Virtual Reality for several tasks, such as mission planning, multidisciplinary scientific analysis, and astronaut training. A key factor for the reliability of the simulations is having accurate 3D representations of planetary terrains. Extraterrestrial heightmaps derived from satellite imagery often contain missing values due to acquisition and transmission constraints. Mars is among the most studied planets beyond Earth, and its extensive terrain datase...
ID: 2510.14765v1 cs.CV, cs.AI, cs.GR
Авторы:

Fengzhi Guo, Chih-Chuan Hsu, Sihao Ding, Cheng Zhang

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Annotation:
Reconstructing dynamic 3D scenes from monocular input is fundamentally under-constrained, with ambiguities arising from occlusion and extreme novel views. While dynamic Gaussian Splatting offers an efficient representation, vanilla models optimize all Gaussian primitives uniformly, ignoring whether they are well or poorly observed. This limitation leads to motion drifts under occlusion and degraded synthesis when extrapolating to unseen views. We argue that uncertainty matters: Gaussians with re...
ID: 2510.12768v1 cs.CV, cs.AI, cs.GR
Авторы:

Felix Taubner, Ruihang Zhang, Mathieu Tuli, Sherwin Bahmani, David B. Lindell

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Annotation:
Digital human avatars aim to simulate the dynamic appearance of humans in virtual environments, enabling immersive experiences across gaming, film, virtual reality, and more. However, the conventional process for creating and animating photorealistic human avatars is expensive and time-consuming, requiring large camera capture rigs and significant manual effort from professional 3D artists. With the advent of capable image and video generation models, recent methods enable automatic rendering of...
ID: 2510.12785v1 cs.CV, cs.AI, cs.GR
Авторы:

Guanjun Wu, Jiemin Fang, Chen Yang, Sikuang Li, Taoran Yi, Jia Lu, Zanwei Zhou, Jiazhong Cen, Lingxi Xie, Xiaopeng Zhang, Wei Wei, Wenyu Liu, Xinggang Wang, Qi Tian

#### Контекст На сMODERNЖОРСТКИЙ 3D-активы являются ключевым компонентом для многих отраслей, включая игры, виртуальную реальность, архитектурное проектирование и др. Несмотря на то, что недавние 3D-предобученные модели демонстрируют выдающиеся результаты в генерации реалистичного 3D-контента, большинство из них основываются на моделях размытия и придерживаются двухэтапной схемы: первым шагом выполняется генерация геометрии, а затем — синтез визуальных свойств. Такой декомпозированный подход часто приводит к проблемам, таким как несоответствие геометрии и текстуры, а также неэффективность процесса. В данной работе мы предлагаем UniLat3D — унифицированную модель, которая объединяет геометрию и визуальные свойства в единый вариант латентного пространства. Это позволяет упростить процесс до единого этапа, обеспечивая быструю и эффективную генерацию 3D-моделей. #### Метод UniLat3D основывается на геометрия-визуальном Unified VAE (UVAE), который сжимает высокоразрешенные спарсевые признаки в компактное латентное представление — UniLat. UniLat содержит информацию о геометрии и визуальных свойствах в качестве разреженной высокоразмерной формы и компактной низкоразмерной формы. Это латентное представление может быть эффективно декодировано в различные форматы 3D, такие как 3D-Гауссовы распределения и мешы. Для обучения UniLat3D мы используем единый модельный подход с целью напрямую сопоставлять шум Гаусса с UniLat. Это позволяет избежать декомпозиции процесса на два этапа и упростить архитектуру. Мы обучаем модель только на открытых 3D-данных, чтобы она могла генерировать качественные 3D-активы в считанные секунды из одного изображения. #### Результаты Мы провели подробные эксперименты для сравнения UniLat3D с другими 3D-представлениями и моделями генерации. Наши результаты показывают, что UniLat3D достигает высшего уровня качества геометрии и визуальных свойств по сравнению с двухэтапными моделями. Мы использовали данные в разных форматах, включая 3D-сканы, для обучения и вывода. UniLat3D в среднем генерирует модели за 2-3 секунды, что значительно опережает существующие методы по скорости и качеству. #### Значимость UniLat3D может быть применено в различных областях, таких как игровое производство, виртуальная реальность, архитектурное проектирование и др. Он обеспечивает более быструю генерацию 3D-активов с высоким качеством, уменьшая необходимость в дополнительных этапах обработки. Также UniLat3D может показать выигрыш в энергоэффек
Annotation:
High-fidelity 3D asset generation is crucial for various industries. While recent 3D pretrained models show strong capability in producing realistic content, most are built upon diffusion models and follow a two-stage pipeline that first generates geometry and then synthesizes appearance. Such a decoupled design tends to produce geometry-texture misalignment and non-negligible cost. In this paper, we propose UniLat3D, a unified framework that encodes geometry and appearance in a single latent sp...
ID: 2509.25079v1 cs.CV, cs.AI, cs.GR
Авторы:

Johanna Karras, Yingwei Li, Yasamin Jafarian, Ira Kemelmacher-Shlizerman

#### Контекст Отрисовка предметов в 360° позволяет получить разногласие вида, что широко применяется в графике компьютерной графики, виртуальной реальности и ретуши. Однако, новые виды (novel view synthesis, NVS) на предметах, особенно на одежде, требуются труднообходимые условия: сильные затенения, нетиповые позы тела, деформации ткани. Использование синтетических 3D-данных, часто статичных и без затенения, оказывается неэффективным в реальной жизни. Целью данной работы является создание метода, позволяющего генерировать 360°-виды предметов, одежды в частности, в непредсказуемых реальных условиях. #### Метод Предлагаемый подход, HoloGarment, основан на создании "атласа" ткани, который представляет собой 3D-представление всех видов предмета в точках 360°. Метод принимает в качестве входных данных от 1 до 3 изображений или видео с перемещением человека в одежде и генерирует 360°-виды в канонической позе. Главным инновационным решением является создание универсального метода, который объединяет 3D-трэйнинг с реальными 2D-данными. Это достигается с помощью внедрения имплазированного тренировочного парадигмы, в которой тренируется общий пространственный семантический признак для реальных и синтетических данных. Для построения атласа ткани, используется формирование трехмерной модели предмета на основе реальных видов с последующим оптимизационным процессом, который позволяет генерировать канвонные виды в любых положениях. #### Результаты Исследования проводились на стандартных датасетах, включающих как 2D-изображения, так и 3D-модели. Результаты показали, что HoloGarment превосходит другие методы NVS, особенно на видах, где требуется учитывать затенения, деформации ткани и различные позы тела. Доказано, что HoloGarment может быстро адаптироваться к новым данным, создавая точные 3D-модели по 2D-изображениям. Это улучшение в NVS в реальных условиях достигается благодаря совмещению данных из разных источников и оптимизации пространственных семантических признаков. #### Значимость Метод HoloGarment может применяться в сферах синтеза и редактирования изображений, виртуальной и расширенной реальности, где требуется точное 3D-представление одежды в различных позях. Он отличается робастностью в работе с реальными условиями, такими как затенения, неоднородность ткани, ошибки позы. Этот подход может быть использован для виртуального трибуна и модных коллекций, где нужно быстро подготовить 3D-модели в разных позях. #### Выводы Результаты свидетельствуют о том, что HoloGarment является новато
Annotation:
Novel view synthesis (NVS) of in-the-wild garments is a challenging task due significant occlusions, complex human poses, and cloth deformations. Prior methods rely on synthetic 3D training data consisting of mostly unoccluded and static objects, leading to poor generalization on real-world clothing. In this paper, we propose HoloGarment (Hologram-Garment), a method that takes 1-3 images or a continuous video of a person wearing a garment and generates 360{\deg} novel views of the garment in a c...
ID: 2509.12187v1 cs.CV, cs.AI, cs.GR, cs.LG
Авторы:

Yuiko Uchida, Ren Togo, Keisuke Maeda, Takahiro Ogawa, Miki Haseyama

## Контекст Оценка качества 3D-сцен — ключевой вопрос в области компьютерного зрения и информационных технологий. Основные метрики, такие как PSNR, SSIM и LPIPS, ориентированы на общую картину или изображение в целом, не учитывая фундаментальную структуру 3D-сцены, состоящую из отдельных объектов. Это приводит к расхождениям с оценками человеческого зрения. Нейропсихологические исследования подтверждают, что люди при оценке 3D-сцен привлекают внимание к отдельным объектам, а не к сцене в целом. Это свойство не учитывают существующие метрики. Необходимо разработать метод, который бы отражал объектный аспект представления 3D-сцен, чтобы лучше соответствовать человеческому восприятию. ## Метод Мы предлагаем **Objectness Similarity (OSIM)** — новую метрику для оценки 3D-сцен, которая фокусируется на отдельных объектах в сцене. OSIM использует модель обнаружения объектов для вычисления "objectness" каждого отдельного объекта в сцене. "Objectness" определяется как вероятность того, что часть сцены относится к определенному объекту. Мы используем концепции из модели Kohonen Self-Organizing Maps (SOM) для построения базисных объектов и выделения каждого отдельного объекта в сцене. Эта архитектура позволяет выделить связь между частями сцены и объектами, чтобы получить более точную оценку "objectness". ## Результаты Мы провели эксперименты на наборе данных ShapeNet, используя ряд существующих метрик и OSIM. Результаты показали, что OSIM выдает более точные оценки по сравнению с остальными метриками, особенно в ситуациях, когда важно сохранять целостность объектов в сцене. Мы также провели пользовательский испытательный цикл, в котором участники оценивали качество сцен на основе их "objectness". Обнаружено, что результаты пользователей лучше согласуются с оценками OSIM, чем с другими метриками. Это показывает, что OSIM более естественно соответствует человеческому восприятию. ## Значимость Метрика OSIM может быть применена в сферах, требующих точной оценки 3D-сцен, таких как генерация 3D-сцен, реконструкция, виртуальная реальность и имитация человеческого восприятия. OSIM обеспечивает более точное отображение человеческих ощущений при оценке 3D-сцен, что может улучшить результаты в области машинного зрения и интеллектуальных систем. Этот подход может привести к более точному пониманию и интерактивности с 3D-сценами в приложениях, таких как виртуальная и аugmented реальность. ## Выводы Разработанная метрика OSIM представляет собой новую точку зрения на оценку качества 3D-сцен, сосредоточенную на объектах. Наши эксперименты показали, что OSIM более точно соо
Annotation:
This paper presents Objectness SIMilarity (OSIM), a novel evaluation metric for 3D scenes that explicitly focuses on "objects," which are fundamental units of human visual perception. Existing metrics assess overall image quality, leading to discrepancies with human perception. Inspired by neuropsychological insights, we hypothesize that human recognition of 3D scenes fundamentally involves attention to individual objects. OSIM enables object-centric evaluations by leveraging an object detection...
ID: 2509.09143v1 cs.CV, cs.AI, cs.GR
Показано 11 - 20 из 24 записей