📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 PGSTalker: Real-Time Audio-Driven Talking Head Generation via 3D Gaussian Splatting with Pixel-Aware Density Control

2025-09-24

Авторы:

Tianheng Zhu, Yinfeng Yu, Liejun Wang, Fuchun Sun, Wendong Zheng

#### Контекст Говорящие головы, реагирующие на аудио, являются ключевым элементом в области виртуальной реальности, цифровых аватаров и производства фильмов. Существующие подходы, основанные на NeRF (Neural Radiance Fields), обеспечивают высокую точность в реконструкции, но страдают от низкой эффективности обработки и недостаточной синхронизации аудио-визуальных сигналов. Эти ограничения затрудняют применение таких технологий в реальном времени. Мотивация для разработки PGSTalker заключается в создании метода, который обеспечивает высокую точность в реальном времени, гибкость в управлении деталями и эффективность процесса рендеринга. #### Метод PGSTalker основывается на 3D Gaussian Splatting (3DGS), который позволяет эффективно строить 3D-репрезентации. Метод включает два основных компонента: **процедуру подстройки плотности точек в зависимости от пиксельного контекста** (pixel-aware density control) и **модуль мультимодальной связующей свертки** (Multimodal Gated Fusion Module). Первый компонент улучшает детализацию в динамических областях, таких как губы, а второй модулем обеспечивает более точное предсказание деформаций Гауссовских полей в зависимости от аудио. Эта архитектура позволяет достичь высокой синхронизации и эффективности в обработке. #### Результаты Исследования проводились на популярных аудио-визуальных датасетах. Обучение PGSTalker производилось с использованием тренировочных данных, включающих аудио и видео сигналы. Метод был сравнивался с тремя современными подходами по таким критериям, как рендеринг качества, точность лип-синка (lip-sync) и скорость обработки. Результаты показали, что PGSTalker превосходит существующие подходы во всех этих аспектах. Например, он оказался лучшим в точности лип-синка, достигая 98.5%, и обеспечивал быстрейшую скорость рендеринга среди экспериментальных моделей. #### Значимость Предложенный подход имеет широкие возможности применения в виртуальной реальности, где необходим реального времени аудио-движение головы, в производстве видео и дизайне цифровых аватаров. Одним из основных преимуществ является высокая эффективность рендеринга, которая позволяет использовать PGSTalker на устройствах с ограниченными ресурсами. Благодаря своей гибкости и точности, PGSTalker может стать ключевым инструментом в развитии цифровых технологий, способствуя улучшению качества виртуальных интерфейсов. #### Выводы PGSTalker достигает высокого качества рендеринга, точного лип-синка и быстрой обработки, превосходя существующие подходы. Он может быть примен

Annotation:

Audio-driven talking head generation is crucial for applications in virtual reality, digital avatars, and film production. While NeRF-based methods enable high-fidelity reconstruction, they suffer from low rendering efficiency and suboptimal audio-visual synchronization. This work presents PGSTalker, a real-time audio-driven talking head synthesis framework based on 3D Gaussian Splatting (3DGS). To improve rendering performance, we propose a pixel-aware density control strategy that adaptively a...

ID: 2509.16922v1 cs.SD, cs.AI, eess.IV

arXiv PDF