Hyper Diffusion Avatars: Dynamic Human Avatar Generation using Network Weight Space Diffusion
2509.04145v1
cs.GR, cs.CV
2025-09-06
Авторы:
Dongliang Cao, Guoxing Sun, Marc Habermann, Florian Bernard
Резюме на русском
## Контекст
Создание динамичных гуманоидных аватаров является важной задачей в области визуальных технологий и виртуальной реальности, привлекающей внимание многих научных и практических исследований. Существующие подходы могут быть разделены на две основные категории: **person-specific rendering** и **diffusion-based generative modeling**. Первый подход обеспечивает высокую фотореалистичность, но ограничен в области персонализации и требует многоканальной видеоданных для оптимизации. Второй подход, в свою очередь, позволяет создавать анимированные аватары, но эти аватары имеют низкую фотореалистичность и не удается ловко выразить деформации одежды при разных позах. Недостаток этих подходов побудил авторов разработать новую методологию, объединяющую их преимущества, чтобы получить аватары с повышенной фотореалистичностью и реалистичными деформациями.
## Метод
Для решения проблемы авторы предложили двухэтапную методологию. **Первый этап** включает оптимизацию набора персонализированных UNet-сетей, где каждая сеть представляет динамическую модель гуманоидного аватара с такими характеристиками, как позы и деформации одежды. **Второй этап** предполагает обучение **сети-гипердиффузии** на весах персонализированных сетей. Это позволяет генерировать веса сети в режиме реального времени и поддерживать контроль над движением аватара. Такая архитектура обеспечивает высокую гибкость и эффективность, а также позволяет генерировать модели, которые могут быть использованы в различных сценариях виртуальной реальности и визуальных эффектов.
## Результаты
Авторы провестили эксперименты на большом датасете, содержащем многоканальные видео с различных углов для разных людей. Оценка показала, что их метод превосходит современные подходы в следующих аспектах: **качество рендеринга**, **реалистичность деформаций** и **реальность движения**. Особенно выдающиеся результаты показались в случае перекрестной оценки моделей для разных людей, где их подход достиг более высокого уровня общей обобщаемости. Данные результаты демонстрируют то, что их метод может стать новым стандартом в области гуманоидных аватаров.
## Значимость
Результаты этого исследования могут открыть новые возможности в различных приложениях:
- **Виртуальная реальность и игры**: повышение фотореалистичности и реалистичности движения аватаров.
- **Виртуальный творческий процесс**: упрощение создания моделей людей для видеоинтерфейсов и анимационных проектов.
- **Медицина и образование**: создание реалистичных моделей для динамических сценариев обучения и демонстрации.
Важны
Abstract
Creating human avatars is a highly desirable yet challenging task. Recent
advancements in radiance field rendering have achieved unprecedented
photorealism and real-time performance for personalized dynamic human avatars.
However, these approaches are typically limited to person-specific rendering
models trained on multi-view video data for a single individual, limiting their
ability to generalize across different identities. On the other hand,
generative approaches leveraging prior knowledge from pre-trained 2D diffusion
models can produce cartoonish, static human avatars, which are animated through
simple skeleton-based articulation. Therefore, the avatars generated by these
methods suffer from lower rendering quality compared to person-specific
rendering methods and fail to capture pose-dependent deformations such as cloth
wrinkles. In this paper, we propose a novel approach that unites the strengths
of person-specific rendering and diffusion-based generative modeling to enable
dynamic human avatar generation with both high photorealism and realistic
pose-dependent deformations. Our method follows a two-stage pipeline: first, we
optimize a set of person-specific UNets, with each network representing a
dynamic human avatar that captures intricate pose-dependent deformations. In
the second stage, we train a hyper diffusion model over the optimized network
weights. During inference, our method generates network weights for real-time,
controllable rendering of dynamic human avatars. Using a large-scale,
cross-identity, multi-view video dataset, we demonstrate that our approach
outperforms state-of-the-art human avatar generation methods.
Ссылки и действия
Дополнительные ресурсы: