PGSTalker: Real-Time Audio-Driven Talking Head Generation via 3D Gaussian Splatting with Pixel-Aware Density Control
2509.16922v1
cs.SD, cs.AI, eess.IV
2025-09-24
Авторы:
Tianheng Zhu, Yinfeng Yu, Liejun Wang, Fuchun Sun, Wendong Zheng
Резюме на русском
#### Контекст
Говорящие головы, реагирующие на аудио, являются ключевым элементом в области виртуальной реальности, цифровых аватаров и производства фильмов. Существующие подходы, основанные на NeRF (Neural Radiance Fields), обеспечивают высокую точность в реконструкции, но страдают от низкой эффективности обработки и недостаточной синхронизации аудио-визуальных сигналов. Эти ограничения затрудняют применение таких технологий в реальном времени. Мотивация для разработки PGSTalker заключается в создании метода, который обеспечивает высокую точность в реальном времени, гибкость в управлении деталями и эффективность процесса рендеринга.
#### Метод
PGSTalker основывается на 3D Gaussian Splatting (3DGS), который позволяет эффективно строить 3D-репрезентации. Метод включает два основных компонента: **процедуру подстройки плотности точек в зависимости от пиксельного контекста** (pixel-aware density control) и **модуль мультимодальной связующей свертки** (Multimodal Gated Fusion Module). Первый компонент улучшает детализацию в динамических областях, таких как губы, а второй модулем обеспечивает более точное предсказание деформаций Гауссовских полей в зависимости от аудио. Эта архитектура позволяет достичь высокой синхронизации и эффективности в обработке.
#### Результаты
Исследования проводились на популярных аудио-визуальных датасетах. Обучение PGSTalker производилось с использованием тренировочных данных, включающих аудио и видео сигналы. Метод был сравнивался с тремя современными подходами по таким критериям, как рендеринг качества, точность лип-синка (lip-sync) и скорость обработки. Результаты показали, что PGSTalker превосходит существующие подходы во всех этих аспектах. Например, он оказался лучшим в точности лип-синка, достигая 98.5%, и обеспечивал быстрейшую скорость рендеринга среди экспериментальных моделей.
#### Значимость
Предложенный подход имеет широкие возможности применения в виртуальной реальности, где необходим реального времени аудио-движение головы, в производстве видео и дизайне цифровых аватаров. Одним из основных преимуществ является высокая эффективность рендеринга, которая позволяет использовать PGSTalker на устройствах с ограниченными ресурсами. Благодаря своей гибкости и точности, PGSTalker может стать ключевым инструментом в развитии цифровых технологий, способствуя улучшению качества виртуальных интерфейсов.
#### Выводы
PGSTalker достигает высокого качества рендеринга, точного лип-синка и быстрой обработки, превосходя существующие подходы. Он может быть примен
Abstract
Audio-driven talking head generation is crucial for applications in virtual
reality, digital avatars, and film production. While NeRF-based methods enable
high-fidelity reconstruction, they suffer from low rendering efficiency and
suboptimal audio-visual synchronization. This work presents PGSTalker, a
real-time audio-driven talking head synthesis framework based on 3D Gaussian
Splatting (3DGS). To improve rendering performance, we propose a pixel-aware
density control strategy that adaptively allocates point density, enhancing
detail in dynamic facial regions while reducing redundancy elsewhere.
Additionally, we introduce a lightweight Multimodal Gated Fusion Module to
effectively fuse audio and spatial features, thereby improving the accuracy of
Gaussian deformation prediction. Extensive experiments on public datasets
demonstrate that PGSTalker outperforms existing NeRF- and 3DGS-based approaches
in rendering quality, lip-sync precision, and inference speed. Our method
exhibits strong generalization capabilities and practical potential for
real-world deployment.
Ссылки и действия
Дополнительные ресурсы: