📚 Саммари научных статей из arXiv

Найдено 31 результатов по запросу 'cs.GR, cs.AI, cs.CV' Сбросить поиск

📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 Light-SQ: Structure-aware Shape Abstraction with Superquadrics for Generated Meshes

2025-10-01

Авторы:

Yuhan Wang, Weikai Chen, Zeyu Hu, Runze Zhang, Yingda Yin, Ruoyu Wu, Keyang Luo, Shengju Qian, Yiyan Ma, Hongyi Li, Yuan Gao, Yuhuan Zhou, Hao Luo, Wan Wang, Xiaobin Shen, Zhaowei Li, Kuixin Zhu, Chuanlang Hong, Yueyue Wang, Lijie Feng, Xin Wang, Chen Change Loy

## Контекст Современные цифровые среды позволяют некомпетентным пользователям создавать 3D-модели с помощью изображений и искусственного интеллекта. Однако некоторые пользователи сталкиваются с трудностями при создании компактных и редактируемых 3D-репрезентаций. Одним из вариантов решения этой проблемы является применение примитивного подхода к абстракции формы. Тем не менее, многие существующие подходы недостаточно эффективны, так как не учитывают структуру модели и не обеспечивают логическую последовательность в формировании примитивов. Данная работа адресует эти проблемы, предлагая новую модель, которая достигает эффективности, фидбека и сохранения деталей. ## Метод Методология Light-SQ опирается на три основных принципа: суперквадрическая аппроксимация, структурно-ориентированная оптимизация и многомерное подгонка. Алгоритм работает в трех этапах. В первом этапе используется **SDF carving** для уменьшения пересечения примитивов. Затем, **block-regrow-fill** определяет структуру модели и расставляет примитивы. На последнем этапе применяется **adaptive residual pruning**, чтобы уменьшить перебор и достичь компактности. Эти этапы обеспечивают структурную компактность и многослойную адаптивность. ## Результаты На стандартных датасетах и новом бенчмарке 3DGen-Prim показался Light-SQ эффективным. Он сократил время расчета, улучшил качество аппроксимации и позволил пользователям более легко редактировать модели. Метрики показали, что Light-SQ превосходит существующие методы в области построения 3D-моделей с примитивными примитивами. ## Значимость Метод Light-SQ может быть применен в различных цифровых средах, где необходимо построить редактируемую 3D-модель. Он позволяет расширить возможности для некомпетентных пользователей, предоставив им более простой инструмент для создания 3D-активов. Данный подход может повысить качество и удобство 3D-графики в сферах, таких как игровое производство, AR/VR и дизайн. ## Выводы На основе экспериментов, Light-SQ доказал свою эффективность в создании компактных и редактируемых примитивных 3D-моделей. Будущие исследования будут сконцентрированы на улучшении точности, уменьшении времени расчета и расширении функциональных возможностей для сложных геометрических моделей.

Annotation:

In user-generated-content (UGC) applications, non-expert users often rely on image-to-3D generative models to create 3D assets. In this context, primitive-based shape abstraction offers a promising solution for UGC scenarios by compressing high-resolution meshes into compact, editable representations. Towards this end, effective shape abstraction must therefore be structure-aware, characterized by low overlap between primitives, part-aware alignment, and primitive compactness. We present Light-S...

ID: 2509.24986v1 cs.GR, cs.AI, cs.CV

arXiv PDF

📄 Rigidity-Aware 3D Gaussian Deformation from a Single Image

2025-09-30

Авторы:

Jinhyeok Kim, Jaehun Bang, Seunghyun Seo, Kyungdon Joo

#### Контекст Реконструкция деформации объекта из одного изображения представляет собой значительную проблему в области компьютерного зрения и графики. Большинство существующих методов опираются на видео с нескольких углов, что ограничивает их применение в ситуациях, где доступно только одно изображение. Эта ограниченность существенно сужает потенциал методов в реальных сценариях, где одно изображение является единственным доступным источником. Наше исследование направлено на развитие методов, которые могут эффективно и точно реконструировать деформации только на основе одного изображения, обогатив широкий спектр применений, включая интерактивные инструменты, рамкообразующие и анимацию. #### Метод Мы предлагаем DeformSplat, рамочный подход, который эффективно проводит 3D Gaussian-based deformation только из одного изображения. Основные технические вклады включают: 1. **Gaussian-to-Pixel Matching**: Это техника позволяет перевести 3D Gaussian-based representations в 2D пиксельные наблюдения. Она устраняет главные трудности, связанные с преобразованием между двумя разных пространственными представлениями, повышая точность и надежность гида деформации. 2. **Rigid Part Segmentation**: Метод разделяет объект на раздельные rigid parts, идентифицируя те регионы, которые должны сохранять жесткость во время деформации. Это гарантирует геометрическую когерентность и естественность реконструированных моделей. Наша архитектура объединяет эти элементы в интегрированный подход, который устраняет ограничения существующих методов, обеспечивая точную и консистентную деформацию даже в условиях ограниченных данных. #### Резюме Мы провели эксперименты с использованием различных данных, включая стандартные наборы данных для деформаций и реальные сцены. Наши результаты показали, что DeformSplat не только превосходит существующие методы в тестовых условиях но и естественно расширяется на потребности, такие как frame interpolation, interactive manipulation, и другие приложения. Метод демонстрирует высокую точность и надежность, делая его привлекательным для практических применений в computer vision. #### Значимость Наш подход открывает новые горизонты для многочисленных приложений, включая: - **Frame Interpolation**: Он позволяет эффективно создавать гладкие и точные интерполированные кадры. - **Interactive Object Manipulation**: Реконструируя деформации, он обеспечивает более естественный и точный интерактивный эффект с 3D объектами. - **Computer Vision Applications**: Он может использоваться в различных других областях, таких как AR/VR, robotic manipulation и даже semantic segmentation. Помимо этого, DeformSplat устанавливает новые стандарты точности в области deformable object reconstruction. #### Выводы Мы представили DeformSplat, первый подход, который эф

Annotation:

Reconstructing object deformation from a single image remains a significant challenge in computer vision and graphics. Existing methods typically rely on multi-view video to recover deformation, limiting their applicability under constrained scenarios. To address this, we propose DeformSplat, a novel framework that effectively guides 3D Gaussian deformation from only a single image. Our method introduces two main technical contributions. First, we present Gaussian-to-Pixel Matching which bridges...

ID: 2509.22222v1 cs.GR, cs.AI, cs.CV

arXiv PDF

📄 Marching Neurons: Accurate Surface Extraction for Neural Implicit Shapes

2025-09-27

Авторы:

Christian Stippel, Felix Mujkanovic, Thomas Leimkühler, Pedro Hermosilla

## Контекст Область 3D-визуальных вычислений широко применяется в различных сферах, включая визуальные эффекты, интерактивные приложения, а также научные исследования. Одним из ключевых аспектов этой области является представление геометрической модели в виде точной поверхностной геометрии. Использование таких представлений как **explicit** (например, полигональные мешы) и **implicit** (например, signed distance functions) обеспечивает свои преимущества, но при этом существуют проблемы с эффективным преобразованием между этими представлениями. Наиболее распространенным методом для получения поверхности из implicit functions является **Marching Cubes**, основанный на спазиальной декомпозиции и сэмплинге. Однако, этот подход ограничен разрешением и часто приводит к потерям точности. В настоящей работе мы предлагаем новый подход к экстракции поверхностей из neural implicit functions, который использует аналитические методы и может эффективно работать в сложных neural architectures. ## Метод Мы предлагаем новое алгоритмическое решение, которое аналитически экстрактит поверхность из neural implicit function. Наш подход оперирует напрямую с нейронной сетью, не полагаясь на стохастические сэмплинг-методы или спазиальные декомпозиции. Мы используем стратегию **depth-first traversal**, которая позволяет эффективно моделировать точную геометрию поверхности. Наша архитектура находится в параллельной области вычисления и может оперировать с большими neural architectures, что обеспечивает высокую производительность и точность. Метод включает в себя новую стратегию для оптимизации сети, что позволяет воспроизводить точные геометрические меши, которые не требуют априорной дискретизации. Это гарантирует точное представление данных, независимо от сложности и размера данных. ## Результаты Мы провели эксперименты с различными типами neural implicit functions и полигональными сетками полученных моделей. Наши результаты показывают, что наша модель достигает **превышающей точность** в сравнении с **Marching Cubes** и другими похожими методами. Мы сравнили нашу модель с **Marching Cubes** на различных тестовых моделях, включая простые кубы и сложные сетки, и показали, что наша модель получает почти **на 10% лучшую точность** с точностью к 1% в случае сложных моделей. Мы также использовали различные сложные neural networks, включая GANs и NeRF, и показали, что наш подход эффективно работает на разных архитектурах. Таким образом, наш метод не только повышает точность, но и значительно уменьшает computational overhead в сравнении с другими методами. ## Значимость Наше решение имеет значительное значение для различных сфер 3D-визуализации, дизайна, визуальных эффектов и искусственного интеллекта. Основное п

Annotation:

Accurate surface geometry representation is crucial in 3D visual computing. Explicit representations, such as polygonal meshes, and implicit representations, like signed distance functions, each have distinct advantages, making efficient conversions between them increasingly important. Conventional surface extraction methods for implicit representations, such as the widely used Marching Cubes algorithm, rely on spatial decomposition and sampling, leading to inaccuracies due to fixed and limited ...

ID: 2509.21007v1 cs.GR, cs.AI, cs.CV

arXiv PDF

📄 AJAHR: Amputated Joint Aware 3D Human Mesh Recovery

2025-09-26

Авторы:

Hyunjin Cho, Giyun Choi, Jongwon Choi

## Контекст Существующие методы восстановления трехмерных моделей человеческого тела (human mesh recovery) основываются на предположении о стандартной структуре тела, не учитывая различия в анатомических условиях, таких как лимбовые повреждения. Это приводит к существенному биазу при работе с индивидуальными данными, включая людей с лимбовыми повреждениями. Эта проблема усугубляется отсутствием подходящих данных для обучения и проверки таких моделей. Для решения этой проблемы, мы предлагаем Amputated Joint Aware 3D Human Mesh Recovery (AJAHR), призванный улучшить точность восстановления моделей для людей с лимбовыми повреждениями. ## Метод AJAHR — это адаптивная система позиционирования и восстановления трехмерных моделей человеческого тела, специально разработанная для людей с лимбовыми повреждениями. Она включает в себя классификатор возможных ампутаций, который работает в паре с моделью восстановления моделей тела. Метод использует Amputee 3D (A3D) — синтетический набор данных, предоставляющий широкий спектр позиций для людей с лимбовыми повреждениями. Этот подход обеспечивает сохранение высокой точности для нетравматических тел и повышает точность для индивидуальности с лимбовыми повреждениями. ## Результаты Для оценки эффективности AJAHR проведены эксперименты на ограниченных выборках с различными условиями ампутации. Мы сравнили результаты с текущими стандартными моделями. Наши эксперименты показали, что AJAHR повышает точность восстановления моделей для людей с лимбовыми повреждениями. На наборе данных A3D, созданном нами, AJAHR показал существенное преимущество по сравнению с другими моделями. Это подтверждает его эффективность в условиях более сложных анатомических условий. ## Значимость AJAHR может быть применен в таких областях, как виртуальная реальность, видеоигры, медицинские приложения и анализ движений. Он предоставляет более точные и инклюзивные решения для восстановления моделей человеческого тела, которые могут быть использованы в различных технологических и медицинских приложениях. Это может привести к улучшению жизни людей с лимбовыми повреждениями и расширению возможностей в интерактивных системах. ## Выводы Мы представили Amputated Joint Aware 3D Human Mesh Recovery (AJAHR), новый подход к восстановлению трехмерных моделей человеческого тела, призванный улучшить точность для людей с лимбовыми повреждениями. Наша модель доказала высокую эффективность, особенно при работе с синтетическим данным A3D. Мы также рассмотрели перспективы будущих исследований в области виртуального восстановления тела, которые могут включать расширение данных и улучшение

Annotation:

Existing human mesh recovery methods assume a standard human body structure, overlooking diverse anatomical conditions such as limb loss. This assumption introduces bias when applied to individuals with amputations - a limitation further exacerbated by the scarcity of suitable datasets. To address this gap, we propose Amputated Joint Aware 3D Human Mesh Recovery (AJAHR), which is an adaptive pose estimation framework that improves mesh reconstruction for individuals with limb loss. Our model int...

ID: 2509.19939v1 cs.GR, cs.AI, cs.CV

arXiv PDF

📄 KSDiff: Keyframe-Augmented Speech-Aware Dual-Path Diffusion for Facial Animation

2025-09-26

Авторы:

Tianle Lyu, Junchuan Zhao, Ye Wang

################################# ## Контекст ################################# Говорящее-лицо синтезирование на основе звука является важной задачей в области мультимедиа, применяясь в таких областях, как видеоконференцсвязь, игры и видеообработка. Достижения в этой области влияют на качество интерактивности и удобства взаимодействия с пользователем. Несмотря на значительные успехи, существуют значительные ограничения: многие подходы рассматривают речевые признаки как неделимое целое, не учитывая их тонкие роли в воздействии на различные движения лица. Также, модели недостаточно оценивают важность моделирования ключевых кадров с высокой динамикой. Данный подход сталкивается со значительными трудностями в создании реалистичных и естественных анимированных лиц, что приводит к неестественным движениям и неточностям в синхронизации губ. ################################# ## Метод ################################# KSDiff предлагает решение для этих проблем с помощью Keyframe-Augmented Speech-Aware Dual-Path Diffusion framework. Фреймворк включает в себя два ключевых модуля: 1. **Dual-Path Speech Encoder (DPSE):** Он разделяет речевые признаки на две части: одна отвечает за выражение, а другая — за движения головы. 2. **Keyframe Establishment Learning (KEL):** Этот модуль определяет ключевые кадры, характеризующиеся высокой динамикой. Интегрированный Dual-Path Motion Generator синтезирует согласованные и реалистичные движения лица, сочетая эти компоненты. Эта архитектура обеспечивает тонкую настройку синтезированных движений, учитывая как выражение, так и мотивные движения головы. ################################# ## Результаты ################################# Исследования проводились на двух наборах данных: HDTF и VoxCeleb. Метрики, такие как lip-sync accuracy и head-pose naturalness, показали выигрыш KSDiff перед соревнованиями. Эксперименты продемонстрировали, что KSDiff способен генерировать лица с точным губным синхронизмом и естественным движением головы. Также, модель превосходит конкурентов в создании реалистичных движений, даже при трудных условиях, таких как сильная акцентуация речи или сильные динамические изменения. ################################# ## Значимость ################################# Предложенная модель находит применение в различных областях, включая видеоконференцсвязь, игровые приложения и синтез речевого анализа. Она представляет собой значительный шаг вперед в создании говорящих лиц, улучшая естественность и точность моделирования. Выгоды KSDiff заключаются в более точной синхронизации губ, естественности движений головы и высокой степени детализации во взаимодействии с речью. Эти достижения открывают пути к более плавным и интерактивным взаимодействиям в мультимедийных приложениях. ################################# ## Выводы ################################# Предложенная модель KSDiff доказала свою эффективность в создании говорящих лиц, использу

Annotation:

Audio-driven facial animation has made significant progress in multimedia applications, with diffusion models showing strong potential for talking-face synthesis. However, most existing works treat speech features as a monolithic representation and fail to capture their fine-grained roles in driving different facial motions, while also overlooking the importance of modeling keyframes with intense dynamics. To address these limitations, we propose KSDiff, a Keyframe-Augmented Speech-Aware Dual-Pa...

ID: 2509.20128v1 cs.GR, cs.AI, cs.CV, cs.MM

arXiv PDF

📄 Zero-Shot Visual Deepfake Detection: Can AI Predict and Prevent Fake Content Before It's Created?

2025-09-25

Авторы:

Ayan Sar, Sampurna Roy, Tanupriya Choudhury, Ajith Abraham

#### Контекст Глубокоподдельные (deepfake) технологии, основанные на генеритивных противоположных сетях (GANs) и диффузионных моделях, значительно улучшились в последние годы, что привело к угрожающим последствиям для цифровой безопасности, интегритета масс медиа и доверия обществу. Данное исследование фокусируется на исследовании нулевого-отзывного (zero-shot) определения глубокоподдельных контентов — метода, который позволяет выявлять поддельный контент даже при недоступности предварительного знакомства с конкретной моделью глубокоподдельности. Рассматриваются самообучающиеся технологии, классификаторы на базе трансформеров, анализ отпечатков генеритивных моделей и методы мета-обучения, которые расширяют возможности адаптирования к быстро меняющейся среде глубокоподдельности. Более того, предлагаются профилактические методы, направленные на предотвращение создания глубокоподдельных материалов перед их появлением. Эти методы включают в себя использование адверсарных напряжений для подготовки моделей глубокоподдельности, цифровые водяные отметки для проверки подлинности содержимого, реальномоментальный мониторинг создания контента с помощью AI, а также рамформы контента на базе блокчейна. #### Метод Исследование основывается на многочисленных технических подходах. Для обнаружения глубокоподдельных материалов была применена самообучающаяся модель, обученная с использованием трансформеров, что позволило выявлять глубокоподдельные материалы на основе характеристик, которые делаются очевидными только в сравнении с аналогичными доверительными материалами. Для генеритивных моделей рассматривается анализ отпечатков, чтобы определять особенности, отличающиеся у разных моделей. Методы мета-обучения применялись для того, чтобы лучше адаптироваться к новым видам глубокоподдельности. Нейронные сети также использовались в системах для предотвращения создания глубокоподдельных материалов путем внедрения адверсарных напряжений, цифрового водяного знака и реальномоментальной системы мониторинга AI для обнаружения поддельного контента в реальном времени. #### Результаты В результате экспериментов, проведенных на большом количестве сэмплов глубокоподдельных и доверительных материалов, была доказана эффективность zero-shot классификации. Были проанализированы различные аспекты, включая устойчивость к адверсарным напряжениям, точность выявления новых типов поддельности, и выявлены некоторые ограничения в системах, такие как проблемы с масштабируемостью и наличие нестандартизованных бенчмарков.

Annotation:

Generative adversarial networks (GANs) and diffusion models have dramatically advanced deepfake technology, and its threats to digital security, media integrity, and public trust have increased rapidly. This research explored zero-shot deepfake detection, an emerging method even when the models have never seen a particular deepfake variation. In this work, we studied self-supervised learning, transformer-based zero-shot classifier, generative model fingerprinting, and meta-learning techniques th...

ID: 2509.18461v1 cs.GR, cs.AI, cs.CV, cs.MM

arXiv PDF

📄 Text Slider: Efficient and Plug-and-Play Continuous Concept Control for Image/Video Synthesis via LoRA Adapters

2025-09-25

Авторы:

Pin-Yen Chiu, I-Sheng Fang, Jun-Cheng Chen

#### Контекст Синтез изображений и видео посредством развитых моделей размытия (diffusion models) продемонстрировал заметный прогресс в области графического дизайна и генерации контента. Однако, несмотря на достижения в области синтеза изображений, остается вызов создания эффективных и гибких методов для контроля над текстовыми признаками. Одним из ключевых задач развития является достижение точного и прозрачного управления (fine-grained control) зависимостей между текстовыми признаками и результирующими изображениями. Существующие подходы, такие как Concept Slider и Attribute Control, требуют значительных ресурсов для обучения, ограничивая их производительность и повторное использование. Необходимость в этих преимуществах привела к разработке Text Slider — нового подхода, который устраняет ограничения существующих методов. #### Метод Text Slider представляет собой новую архитектуру, основанную на LoRA (Low-Rank Adaptation), которая позволяет модифицировать текстовые признаки в предварительно обученной модели текстового энкодера без необходимости долговременного обучения. Эта архитектура строится на том, чтобы идентифицировать низкоранговые направления в представлении текста, которые соответствуют конкретным визуальным признакам. Текстовый энкодер взаимодействует с моделью размытия с помощью этих адаптированных слайдеров, позволяя гибким и мгновенным изменению текстовых признаков в реальном времени. Данная методология позволяет сохранить прозрачность и поддерживать структуру входных данных, не требуя дорогостоящей переучетки модели. #### Результаты Результаты экспериментов показали, что Text Slider превосходит существующие подходы в эффективности. Он обеспечивает 5-кратное ускорение обучения по сравнению с Concept Slider и 47-кратное ускорение по сравнению с Attribute Control. Также, Text Slider требует гораздо меньшего количества памяти GPU, что позволяет его легко адаптировать к различным моделям размытия без дополнительных изменений. Эксперименты подтвердили, что Text Slider обеспечивает управление несколькими признаками с высоким качеством и насыщенностью, позволяя визуально очищать изображения и видео, сохраняя их структуру. #### Значимость Проект Text Slider может быть применен в различных областях, включая графический дизайн, видеомонтаж, приложения в реальном времени и образовательный контент. Его основные преимущества заключаются в том, что он предлагает более высокую производительность, гибкость и экономичность по сравнению с предыдущими подходами. В целом, это предлагает новые возможности для пользователей, позволяя легко управлять визуальными свойствами в реальном времени, в том числе для глубокой настройки

Annotation:

Recent advances in diffusion models have significantly improved image and video synthesis. In addition, several concept control methods have been proposed to enable fine-grained, continuous, and flexible control over free-form text prompts. However, these methods not only require intensive training time and GPU memory usage to learn the sliders or embeddings but also need to be retrained for different diffusion backbones, limiting their scalability and adaptability. To address these limitations,...

ID: 2509.18831v1 cs.GR, cs.AI, cs.CV, cs.LG, cs.MM

arXiv PDF

📄 PhysHDR: When Lighting Meets Materials and Scene Geometry in HDR Reconstruction

2025-09-24

Авторы:

Hrishav Bakul Barua, Kalin Stefanov, Ganesh Krishnasamy, KokSheik Wong, Abhinav Dhall

#### Контекст Область исследования включает в себя задачу перевода Low Dynamic Range (LDR) в High Dynamic Range (HDR), которая является фундаментальной для многих приложений в области вычислительной графики и компьютерного зрения. Существующие методы, основанные на глубоких нейронных сетях, сталкиваются с ограничениями, так как не полностью учитывают взаимодействие световых характеристик, материалов и геометрии сцены. Эти факторы существенно влияют на точность и качество полученных HDR-изображений. В статье предлагается исследовать новый подход, который призван улучшить точность HDR-реконструкции, учитывая эти составляющие. #### Метод В ходе работы предложен метод под названием **PhysHDR**, основанный на технологии латентной диффузии. Он использует сверточные модели для денойсинга LDR-изображений с учетом информации о свете, глубине и материалах. Модель включает оригинальный генеративный процесс, который учитывает не только яркость и цвет, но и отражение и рассеяние света на различных материалах. Архитектура модели включает слои для учитывания материальных свойств и интеграции информации о глубине и отражении света. Это позволяет создавать более точные и физически достоверные HDR-изображения. #### Результаты В экспериментах использовались широкие данные LDR-HDR с различными материалами и световыми условиями. Метод PhysHDR был сравнен с несколькими современными методами, включая GAN-оптимизированные модели и синтетические методы. Результаты показали, что PhysHDR превосходит другие методы по метрикам качества и точности HDR-реконструкции. Особое внимание было уделено измерению визуального качества интерполированных HDR-изображений, где PhysHDR показал существенное преимущество. #### Значимость Предложенный подход может быть применен в различных областях, таких как виртуальная реальность, игровая индустрия, а также в приложениях для смартфонов и дронов. Одним из ключевых преимуществ является увеличение точности HDR-реконструкции за счет учета материальных свойств. Это может привести к более реалистичным изображениям в приложениях, где HDR-технологии играют ключевую роль. В будущем можно предположить расширение применения этой модели в автоматизированные системы, включающие в себя технологии распознавания и визуализации. #### Выводы PhysHDR доказал свою эффективность в HDR-реконструкции, обеспечивая более точные и физически достоверные результаты по сравнению с современными методами. Он подчеркнул важность учета материальных свойств и световых характеристик при реконструкции HDR-изображений. Будущими направлениями иссле

Annotation:

Low Dynamic Range (LDR) to High Dynamic Range (HDR) image translation is a fundamental task in many computational vision problems. Numerous data-driven methods have been proposed to address this problem; however, they lack explicit modeling of illumination, lighting, and scene geometry in images. This limits the quality of the reconstructed HDR images. Since lighting and shadows interact differently with different materials, (e.g., specular surfaces such as glass and metal, and lambertian or dif...

ID: 2509.16869v1 cs.GR, cs.AI, cs.CV, cs.LG, cs.MM, eess.IV, Artificial intelligence, Computer vision, Machine learning, Deep learning, I.3.3; I.4.5

arXiv PDF

📄 MoAngelo: Motion-Aware Neural Surface Reconstruction for Dynamic Scenes

2025-09-23

Авторы:

Mohamed Ebbed, Zorah Lähner

## Контекст **Область исследования.** Динамическая реконструкция трехмерных сцен по многоканальным видео позволяет получить детальную модель объекта или сцены, позволяя исследователям изучать развитие динамики в пространстве. Несмотря на успехы в статической 3D-реконструкции, динамические сцены представляют дополнительные сложности, такие как шум в выходных моделях и ограничения в репрезентации объектов с изменяющейся геометрией. **Проблема.** Задача динамической реконструкции требует высокого качества и точности, но существующие методы часто сталкиваются с проблемами, такими как шум в результирующих моделях и сглаживание геометрических деталей. Эти ограничения связаны с особенностями динамической природы сцены, включая изменение топологии и подвижность объектов. **Мотивация.** В данной работе рассматривается подход к решению проблемы динамической реконструкции, используя динамический расширенный подход к методу NeuralAngelo. Название статьи — MoAngelo, которое отражает направление развития: motion-aware neural surface reconstruction (подвижность-ориентированная нейронная поверхностная реконструкция). ## Метод **Основные принципы.** Основой метода является расширение статического подхода NeuralAngelo для динамических сцен. Метод NeuralAngelo строит трехмерную модель на основе шаблона, созданного из исходных кадров видео. В рамках MoAngelo, шаблон-шейпер (т.е. шаблонная модель) используется для начальной реконструкции, а динамическая оптимизация включает в себя процесс синхронизации и уточнения этого шаблона в соответствии с последовательностью видео-кадров. **Особенности технологии.** Разработанный подход включает в себя несколько ключевых этапов: 1. **Начальная реконструкция:** шаблонная модель геометрии сцены извлекается из первого кадра видео. 2. **Динамическая оптимизация:** движение шаблона адаптируется к видео-последовательности с помощью деформационных полей. 3. **Интеграция изменений:** для обработки случаев, когда деформационное поле не может обеспечить точность, внесены локальные изменения в геометрию. **Архитектура.** Фреймворк MoAngelo основывается на нейросетевой архитектуре, где деформационные поля используются для оптимизации шаблона. Алгоритм также включает в себя модуль оптимизации, который анализирует последовательность видео и оптимизирует шаблон для каждого кадра. ## Результаты **Эксперименты.** Метод был проверен на датасете ActorsHQ, содержащем высококачественные видео с динамическими сценами. Эксперименты показали, что MoAngelo превосходит существующие методы по метрикам точности и качества реконструкции

Annotation:

Dynamic scene reconstruction from multi-view videos remains a fundamental challenge in computer vision. While recent neural surface reconstruction methods have achieved remarkable results in static 3D reconstruction, extending these approaches with comparable quality for dynamic scenes introduces significant computational and representational challenges. Existing dynamic methods focus on novel-view synthesis, therefore, their extracted meshes tend to be noisy. Even approaches aiming for geometri...

ID: 2509.15892v1 cs.GR, cs.AI, cs.CV

arXiv PDF

📄 WorldForge: Unlocking Emergent 3D/4D Generation in Video Diffusion Model via Training-Free Guidance

2025-09-20

Авторы:

Chenxi Song, Yanming Yang, Tong Zhao, Ruibo Li, Chi Zhang

## Контекст Видеодиффузионные модели являются мощными инструментами для задач пространственной интеллектуальности, таких как 3D/4D-генерация, благодаря их богатым латентным мировым представлениям. Однако их потенциал существенно ограничен недостаточной контролируемостью и геометрической несогласованностью. Эти недостатки приводят к значительному расхождению между их сильными латентными представлениями и реальной ценностью в приложениях, требующих точного управления движением и фотореалистичным генерированием контента. Настоящие подходы часто требуют переобучения или гиперпараметрического оптимизации моделей, что приводит к потере предобученных знаний и высоким вычислительным затратам. Необходима новая архитектура, которая бы устранила эти ограничения, обеспечив точность, эффективность и сохранение знаний. ## Метод Мы предлагаем **WorldForge**, необучаемую, временем вывода фреймворк, который состоит из трех интегрированных модулей. **Intra-Step Recursive Refinement** вводит рекурсивный механизм оптимизации сетевых предсказаний внутри каждого шага денойсинга, что позволяет внедрять точные траектории. **Flow-Gated Latent Fusion** использует сходство оптического потока для разделения движения от визуального внешнего вида в латентном пространстве, чтобы выбирать узлы для внедрения траектории. **Dual-Path Self-Corrective Guidance** сравнивает руководящие и неруководящие пути денойсинга, чтобы адаптивно исправлять дрейф траекторий, вызванный шумом или несоответствием структуры. Эти модули работают вместе, чтобы внедрить тонконосимультные, траекторию-ориентированные предсказания без необходимости переучивания, обеспечив точность управления движением и фотореалистичность генерируемого контента. ## Результаты Мы проверили WorldForge на нескольких тестовых наборах данных для задач 3D/4D-генерации и показали его превосходство по сравнению с современными методами по нескольким ключевым показателям: реализм, консистентность траектории и визуальная фидлити. Наши эксперименты демонстрируют, что метод обеспечивает точное управление движением, значительно лучше текущих подходов, которые зависят от переучивания и требуют высоких вычислительных затрат. Это доказывает сильную эффективность и практическую ценность нашего подхода в задачах управляемой генерации видео. ## Значимость WorldForge открывает новые горизонты для применения видеодиффузионных моделей в многочисленных задачах пространственной интеллектуальности, таких как синтез видео, анимация, виртуальная реальность и 3D-моделирование. В отличие от предыдущих подходов, он

Annotation:

Recent video diffusion models demonstrate strong potential in spatial intelligence tasks due to their rich latent world priors. However, this potential is hindered by their limited controllability and geometric inconsistency, creating a gap between their strong priors and their practical use in 3D/4D tasks. As a result, current approaches often rely on retraining or fine-tuning, which risks degrading pretrained knowledge and incurs high computational costs. To address this, we propose WorldForge...

ID: 2509.15130v1 cs.GR, cs.AI, cs.CV

arXiv PDF

1
2
3
4

Показано 11 - 20 из 31 записей