Express4D: Expressive, Friendly, and Extensible 4D Facial Motion Generation Benchmark

2508.12438v1 cs.GR, cs.CV 2025-08-20

Авторы:

Yaron Aloni, Rotem Shalev-Arkushin, Yonatan Shafir, Guy Tevet, Ohad Fried, Amit Haim Bermano

Резюме на русском

#### Контекст Динамическая генерация выразительных лицевых эмоций на основе естественного языка является ключевым заданием в Computer Graphics, применяющимся в анимации, виртуальных аватарах и интерактивных системах человеко-компьютера. Однако существующие модели генерируют лицевые эмоции, основываясь на речи или ограниченных эмоциональных меток, не обладая способностью к выразительному контролю. Такие модели также требуют сложных и дорогих систем камер для получения данных для обучения. Наша цель — разработать данный, легкий в использовании и надежный для широкого применения в графике и виртуальных средах. #### Метод Мы сформировали свой доступный набор данных, Express4D, в формате ARKit blendshape. Это позволяет получить выразительные и гибкие лицевые модели. Данные были собраны с помощью набора коммерческих возможностей, включая легкодоступные системы мобильных устройств. Мы использовали генеративные модели естественного языка (LLM) для получения естественных инструкций. Эти инструкции были использованы для управления выразительными лицевыми позывами. Были обучены две модели для текст-to-expression, которые могут генерировать динамические лицевые модели на основе естественного языка. Эти модели позволяют контролировать лицевые модели на основе естественного языка и охватить много-многомерное преобразование между текстом и эмоциональными эффектами. #### Результаты Мы провели эксперименты с двумя моделями текст-to-expression, которые были обучены на нашем наборе данных Express4D. Эти модели показали выдающиеся результаты в генерации выразительных лицевых эмоций. Мы использовали набор данных для тестирования двух моделей генерации лицевых эмоций, которые смогли захватить тонкие оттенки эмоций и обеспечить гибкость в динамической генерации. Мы также проверили качество генерируемых моделей стандартными метриками и выполнили сравнения с другими подходами. #### Значимость Express4D может применяться в области анимации, виртуальных аватаров и интерактивных систем. Этот набор данных открывает возможность создания более выразительных и динамичных лицевых моделей. Он предлагает преимущества в том, что модели генерируются из естественного языка, позволяя значительно упростить процесс анимации. В будущем мы планируем расширить набор данных, улучшить модели генерации и применить нашу технологию к другим сценариям, таким как видеоредактирование и динамическое отображение эмоций в реальном времени. #### Выводы Мы представили новый набор данных Express4D, который добавляет новый уровень выразительности в генерацию лицевых эмоций. Мы доказали, что наша модель генерирует лицевые эмоции, которые

Abstract

Dynamic facial expression generation from natural language is a crucial task in Computer Graphics, with applications in Animation, Virtual Avatars, and Human-Computer Interaction. However, current generative models suffer from datasets that are either speech-driven or limited to coarse emotion labels, lacking the nuanced, expressive descriptions needed for fine-grained control, and were captured using elaborate and expensive equipment. We hence present a new dataset of facial motion sequences featuring nuanced performances and semantic annotation. The data is easily collected using commodity equipment and LLM-generated natural language instructions, in the popular ARKit blendshape format. This provides riggable motion, rich with expressive performances and labels. We accordingly train two baseline models, and evaluate their performance for future benchmarking. Using our Express4D dataset, the trained models can learn meaningful text-to-expression motion generation and capture the many-to-many mapping of the two modalities. The dataset, code, and video examples are available on our webpage: https://jaron1990.github.io/Express4D/

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Express4D: Expressive, Friendly, and Extensible 4D Facial Motion Generation Benchmark

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Radiance Meshes for Volumetric Reconstruction

Efficient Spatially-Variant Convolution via Differentiable Sparse Kernel Complex

TagSplat: Topology-Aware Gaussian Splatting for Dynamic Mesh Modeling and Tracki...

Geodiffussr: Generative Terrain Texturing with Elevation Fidelity

Inverse Rendering for High-Genus Surface Meshes from Multi-View Images

Навигация